中國(guó)投資界 > 商業(yè) > 正文

英偉達(dá)CV-CUDA高性能圖像處理加速庫(kù)Alpha版本發(fā)布，并在GitH

時(shí)間：2022-12-22 18:18:36 來源：IT之家閱讀量：17583

Nvidia宣布CV—CUDA高性能圖像處理加速庫(kù)最近幾天發(fā)布了其Alpha版本，正式向全球開發(fā)者開源用戶可以在GitHub上下載試用

英偉達(dá)CV-CUDA高性能圖像處理加速庫(kù)Alpha版本發(fā)布，并在GitH

CV—CUDA是一個(gè)開源項(xiàng)目，可以在AI成像和計(jì)算機(jī)視覺過程中，通過GPU加速構(gòu)建高效的前處理和后處理步驟CV—CUDA由英偉達(dá)和字節(jié)跳動(dòng)的機(jī)器學(xué)習(xí)團(tuán)隊(duì)聯(lián)合開發(fā)

伴隨著短視頻App，視頻會(huì)議平臺(tái)和VR/AR技術(shù)的發(fā)展，視頻和圖像逐漸成為全球互聯(lián)網(wǎng)流量的主要組成部分包括我們平時(shí)接觸到的這些視頻圖像，很多都是經(jīng)過AI和計(jì)算機(jī)視覺算法處理和增強(qiáng)的可是，伴隨著社交媒體和視頻分享服務(wù)的快速增長(zhǎng)，作為AI圖像算法基礎(chǔ)的視頻圖像處理部分，早已成為計(jì)算過程中不可忽視的成本和瓶頸回顧一些常見的圖像處理示例，以更好地理解CV—CUDA的應(yīng)用場(chǎng)景

基于人工智能算法的圖像背景模糊

圖一。人工智能背景是模糊的

背景虛化通常應(yīng)用于視頻會(huì)議，照片修圖等場(chǎng)景在這些場(chǎng)景中，我們通常希望AI算法能夠模糊主體外的背景部分，這樣既能保護(hù)用戶的隱私，又能美化圖像圖像背景模糊的過程大致可以分為三個(gè)過程:預(yù)處理，DNN網(wǎng)絡(luò)和后處理預(yù)處理通常包括圖像大小調(diào)整，填充，Image2Tensor等操作，Dn網(wǎng)絡(luò)可以是一些常見的分段網(wǎng)絡(luò)，如Unet等后期處理通常包括Tensor2Mask，裁剪，調(diào)整大小，去噪等操作

在傳統(tǒng)的圖像處理過程中，預(yù)處理和后處理部分通常由CPU來操作，這就導(dǎo)致了整個(gè)圖像背景虛化過程中90%的工作時(shí)間都花在了預(yù)處理和后處理部分，從而成為整個(gè)算法流水線的瓶頸如果前后處理能夠通過GPU適當(dāng)加速，將會(huì)大大提高整體計(jì)算性能

圖二。人工智能背景是模糊的

前后處理部分放在GPU上，就可以實(shí)現(xiàn)整條流水線的端到端加速經(jīng)過測(cè)試，在單個(gè)GPU上，與傳統(tǒng)的圖像處理方法相比，將整個(gè)流水線移植到GPU上后，吞吐量可以提高20倍以上這無疑會(huì)大大節(jié)省計(jì)算成本

人工智能算法圖像分類

圖3。人工智能圖像分類

對(duì)于前后處理部分，目前有一些主流的應(yīng)用方案:圖像處理庫(kù)是OpenCV，使用PyTorch框架的模型訓(xùn)練引入的torchvision圖像處理庫(kù)等。

如上所述，傳統(tǒng)的圖像預(yù)處理操作一般都是在CPU上進(jìn)行的，一方面會(huì)占用大量的CPU資源，使得CPU和GPU的負(fù)載不均衡，另一方面，由于基于CPU的圖像加速庫(kù)不支持批量操作，預(yù)處理的效率較低。為了解決目前主流圖像處理庫(kù)存在的一些問題，NVIDIA和字節(jié)跳動(dòng)的機(jī)器學(xué)習(xí)團(tuán)隊(duì)共同開發(fā)了基于GPU的圖像處理加速庫(kù)CV—CUDA，具有以下特點(diǎn):

一批

支持批處理操作，可以充分利用GPU高并發(fā)，高吞吐量的并行加速特性，提高計(jì)算效率和吞吐量。

可變形狀

C/C++/Python接口

在部署機(jī)器學(xué)習(xí)算法時(shí)，有必要調(diào)整訓(xùn)練和推理過程一般來說，python用于訓(xùn)練時(shí)的快速驗(yàn)證，C++用于推理時(shí)的高性能部署但是有些圖像處理庫(kù)只支持python，給部署帶來很大不便如果在訓(xùn)練和推理中使用不同的圖像處理庫(kù)，推理端需要重新實(shí)現(xiàn)邏輯，過程會(huì)非常繁瑣

CV—CUDA提供了C，C++和Python接口，可以服務(wù)于訓(xùn)練和推理場(chǎng)景從訓(xùn)練轉(zhuǎn)移到推理場(chǎng)景時(shí)，也可以省去繁瑣的對(duì)齊過程，提高部署效率

獨(dú)立操作員設(shè)計(jì)

CV—CUDA作為基礎(chǔ)的圖像處理庫(kù)，采用獨(dú)立的算子設(shè)計(jì)，不需要預(yù)先定義流水線獨(dú)立算子的設(shè)計(jì)具有更高的靈活性，使得調(diào)試更加容易，并且可以與其他圖像處理進(jìn)行交互，或者集成到用戶自己的圖像處理上層框架中

結(jié)果對(duì)齊OpenCV

由于某些運(yùn)算符的實(shí)現(xiàn)不一致，不同圖像處理庫(kù)的計(jì)算結(jié)果很難對(duì)齊比如常見的Resize操作，OpenCV，OpenCV—gpu，torchvision實(shí)現(xiàn)方式不同，計(jì)算結(jié)果也不同所以，如果訓(xùn)練時(shí)使用OpenCV CPU版本，推理時(shí)使用GPU版本或其他圖像處理庫(kù)，結(jié)果會(huì)有誤差

可用性

CV—CUDA提供了Image，ImageBatchVarShape等結(jié)構(gòu)，方便用戶使用同時(shí)提供了Allocator類，用戶可以自定義顯存的分配策略，方便上層框架整合管理資源目前CV—CUDA提供PyTorch，OpenCV，Pillow的數(shù)據(jù)轉(zhuǎn)換接口，方便用戶更換操作人員，混合不同的圖像數(shù)據(jù)庫(kù)

針對(duì)不同GPU架構(gòu)的高度優(yōu)化性能

CV—CUDA可以支持Volta，Turing，Ampere等GPU架構(gòu)根據(jù)不同架構(gòu)GPU的特點(diǎn)，CV—CUDA的性能在CUDA內(nèi)核層面進(jìn)行了高度優(yōu)化，可以在云服務(wù)場(chǎng)景下大規(guī)模部署

本站了解到，CV—CUDA Beta預(yù)計(jì)在2023年3月發(fā)布，v1.0正式版將在6月發(fā)布。

有關(guān)CV—CUDA的更多信息，請(qǐng)點(diǎn)擊此鏈接。

。

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問，請(qǐng)與有關(guān)方核實(shí)，文章觀點(diǎn)非本網(wǎng)觀點(diǎn)，僅供讀者參考。

相關(guān)新聞