中國(guó)投資界 > 商業(yè) > 正文

深度學(xué)習(xí)GPU選購(gòu)指南：哪款顯卡配得上我的煉丹爐

時(shí)間：2023-01-18 10:23:17 來(lái)源：IT之家閱讀量：18800

最近幾天，已收到史丹福，UCL，CMU和NYU博士offer，目前就讀于華府大學(xué)的知名評(píng)測(cè)博主蒂姆·德特默斯在其網(wǎng)站上推出了深度學(xué)習(xí)領(lǐng)域的GPU深度評(píng)測(cè)性能和性價(jià)比誰(shuí)是王者

眾所周知，在處理深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)任務(wù)時(shí)，最好使用GPU而不是CPU，因?yàn)樵谏窠?jīng)網(wǎng)絡(luò)中，即使是相對(duì)低端的GPU也會(huì)勝過(guò)CPU。

深度學(xué)習(xí)是一個(gè)對(duì)計(jì)算需求很大的領(lǐng)域在一定程度上，GPU的選擇會(huì)從根本上決定深度學(xué)習(xí)的體驗(yàn)

但問(wèn)題是，如何選擇合適的GPU也是一個(gè)讓人頭疼的問(wèn)題。

如何避免踩雷，如何做出性價(jià)比高的選擇。

已經(jīng)收到史丹福博士，UCL，CMU，NYU，offer，目前就讀于華府大學(xué)的知名評(píng)測(cè)博主Tim Dettmers寫(xiě)了一篇長(zhǎng)文，探討深度學(xué)習(xí)領(lǐng)域需要什么樣的GPU，并結(jié)合自己的經(jīng)驗(yàn)，最后給出了DL領(lǐng)域推薦的GPU。

Tim Dettmers的研究方向是表征學(xué)習(xí)和硬件優(yōu)化的深度學(xué)習(xí)，他自己的網(wǎng)站在深度學(xué)習(xí)和計(jì)算機(jī)硬件領(lǐng)域也很有名。

本文推薦的Tim Dettmers的GPU都是N廠的他顯然也認(rèn)為AMD對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō)名不副實(shí)

邊肖的原始鏈接也貼在下面。

RTX40和30系列的優(yōu)缺點(diǎn)

與英偉達(dá)圖靈架構(gòu)RTX 20系列相比，新的英偉達(dá)安培架構(gòu)RTX 30系列具有更多優(yōu)勢(shì)，如稀疏網(wǎng)絡(luò)訓(xùn)練和推理其他函數(shù)，比如新的數(shù)據(jù)類型，更應(yīng)該被看作是一個(gè)易于使用的函數(shù)，因?yàn)樗鼈兲峁┝伺c圖靈架構(gòu)相同的性能提升，但不需要任何額外的編程要求

阿達(dá)RTX 40系列有更多的進(jìn)展，如張量記憶加速器和8位浮點(diǎn)運(yùn)算以上介紹與RTX 30相比，RTX 40系列有類似的電源和溫度問(wèn)題通過(guò)正確連接電源電纜，可以輕松避免RTX 40電源連接器電纜熔化的問(wèn)題

稀疏網(wǎng)絡(luò)訓(xùn)練

Ampere允許以密集的速度自動(dòng)執(zhí)行細(xì)粒度結(jié)構(gòu)的稀疏矩陣乘法這是怎么做到的以一個(gè)權(quán)重矩陣為例，把它切成四個(gè)元素的塊現(xiàn)在想象這四個(gè)元素中有兩個(gè)是零圖1顯示了這種情況

圖1:1:Ampere架構(gòu)GPU中稀疏矩陣乘法函數(shù)支持的結(jié)構(gòu)

當(dāng)您將這個(gè)稀疏權(quán)重矩陣與一些密集輸入相乘時(shí)，Ampere的稀疏矩陣張量核心函數(shù)會(huì)自動(dòng)將稀疏矩陣壓縮為密集表示，其大小是圖2所示的一半。

壓縮后，密集壓縮的矩陣瓦片被發(fā)送到張量核，張量核計(jì)算的矩陣乘法是通常大小的兩倍這有效地產(chǎn)生了兩倍的速度，因?yàn)樵诠蚕韮?nèi)存的矩陣乘法過(guò)程中，帶寬需求減半

圖2:矩陣相乘前，稀疏矩陣被壓縮成密集表示。

我在研究中致力于稀疏網(wǎng)絡(luò)訓(xùn)練，也寫(xiě)過(guò)一篇關(guān)于稀疏訓(xùn)練的博文對(duì)我工作的一個(gè)批評(píng)是:你減少了網(wǎng)絡(luò)需要的FLOPS數(shù)量，但并沒(méi)有提高速度，因?yàn)镚PU無(wú)法執(zhí)行快速稀疏矩陣乘法

伴隨著張量核的稀疏矩陣乘法函數(shù)的增加，我的算法或其他稀疏訓(xùn)練算法現(xiàn)在在訓(xùn)練時(shí)實(shí)際上提供了兩倍的速度。

開(kāi)發(fā)的稀疏訓(xùn)練算法有三個(gè)階段:確定每層的重要性刪除最不重要的權(quán)重提升與各層重要性成比例的新權(quán)重

雖然這個(gè)功能還在實(shí)驗(yàn)階段，訓(xùn)練稀疏網(wǎng)絡(luò)也不常見(jiàn)，但在你的GPU上擁有這個(gè)功能，意味著你已經(jīng)為稀疏訓(xùn)練的未來(lái)做好了準(zhǔn)備。

低精度計(jì)算

在我的工作中，我已經(jīng)證明了新的數(shù)據(jù)類型可以提高低精度反向傳播過(guò)程中的穩(wěn)定性。

圖4:低精度深度學(xué)習(xí)8位數(shù)據(jù)類型深度學(xué)習(xí)訓(xùn)練受益于高度專業(yè)化的數(shù)據(jù)類型

目前如果要使用16位浮點(diǎn)數(shù)進(jìn)行穩(wěn)定的反向傳播，最大的問(wèn)題是常見(jiàn)的FP16數(shù)據(jù)類型只支持范圍內(nèi)的數(shù)字如果你的漸變滑過(guò)這個(gè)范圍，你的漸變會(huì)爆炸成NaN值

為了防止FP16訓(xùn)練中出現(xiàn)這種情況，我們通常會(huì)對(duì)損失進(jìn)行縮放，即在反向傳播之前將損失乘以一個(gè)小數(shù)字，以防止這種梯度爆炸。

Brain Float 16格式對(duì)于指數(shù)使用的位數(shù)較多，所以可能的數(shù)值范圍與FP32相同，BF16精度較低，也就是有效數(shù)，但是梯度精度對(duì)于學(xué)習(xí)來(lái)說(shuō)并不是那么重要。

所以BF16做的就是你不再需要做任何損耗縮放，也不需要擔(dān)心漸變會(huì)很快爆炸所以我們應(yīng)該看到使用BF16格式訓(xùn)練的穩(wěn)定性有所提高，因?yàn)榫嚷杂袚p失

這對(duì)你意味著什么使用BF16精度，訓(xùn)練可能比使用FP16精度更穩(wěn)定，同時(shí)提供相同的速度增加使用TF32 precision，您可以獲得接近FP32的穩(wěn)定性，同時(shí)提供接近FP16的速度提升

要使用這些數(shù)據(jù)類型，你只需要用TF32替換FP32，用BF16替換FP16，不需要修改代碼。

但一般來(lái)說(shuō)，這些新的數(shù)據(jù)類型可以被視為懶惰數(shù)據(jù)類型，因?yàn)槟梢酝ㄟ^(guò)一些額外的編程工作獲得舊數(shù)據(jù)類型的所有好處。

因此，這些數(shù)據(jù)類型不提供速度，但提高了在訓(xùn)練中使用低精度的便利性。

風(fēng)扇設(shè)計(jì)和GPU溫度

雖然RTX 30系列的新風(fēng)扇設(shè)計(jì)在冷卻GPU方面表現(xiàn)非常好，但非原裝GPU的不同風(fēng)扇設(shè)計(jì)可能會(huì)導(dǎo)致更多問(wèn)題。

如果你的GPU發(fā)熱超過(guò)80C，它會(huì)自我節(jié)流，降低計(jì)算速度/功率解決這個(gè)問(wèn)題的方法是使用PCIe擴(kuò)展器在GPU之間創(chuàng)建空間

使用PCIe擴(kuò)展器來(lái)分配GPU對(duì)于散熱是非常有效的華盛頓大學(xué)的其他博士生和我都使用過(guò)這個(gè)設(shè)置，并取得了巨大的成功

下面這個(gè)系統(tǒng)已經(jīng)運(yùn)行4年了，一點(diǎn)問(wèn)題都沒(méi)有如果沒(méi)有足夠的空間在PCIe插槽中安裝所有的GPU，也可以使用這種方法

圖5:帶PCIE擴(kuò)展口的4顯卡系統(tǒng)看起來(lái)很亂，但是散熱效率高。優(yōu)雅地解決功耗限制的問(wèn)題

可以在你的GPU上設(shè)置一個(gè)功率限制因此，您可以通過(guò)編程將RTX 3090的功率限制設(shè)置為300瓦，而不是標(biāo)準(zhǔn)的350瓦..在四個(gè)GPU系統(tǒng)中，這相當(dāng)于節(jié)省了200W，可能剛好夠用1600W PSU搭建一個(gè)4x的RTX 3090系統(tǒng)

這也有助于保持GPU冷卻所以設(shè)置功率限制可以解決4x RTX 3080或者4x RTX 3090的兩個(gè)主要問(wèn)題，即散熱和供電對(duì)于4x設(shè)置，您仍然需要一個(gè)帶高效冷卻風(fēng)扇的GPU，但這解決了電源問(wèn)題

圖6:降低功率限制有輕微的冷卻效果將RTX 2080 Ti的功率極限降低50—60W，溫度略有下降，風(fēng)扇運(yùn)轉(zhuǎn)更安靜

你可能會(huì)問(wèn)，這樣不會(huì)讓GPU變慢嗎是的，會(huì)的，但問(wèn)題是多少

我在不同的功率限制下對(duì)圖5所示的4x RTX 2080 Ti系統(tǒng)進(jìn)行了基準(zhǔn)測(cè)試我在推理過(guò)程中對(duì)BERT Large的500個(gè)小批量的時(shí)間進(jìn)行了基準(zhǔn)測(cè)試選擇BERT大推理對(duì)GPU的壓力最大

圖7:RTX 2080 Ti在給定功率極限下的實(shí)測(cè)速度下降。

我們可以看到，設(shè)置功率限制并不會(huì)嚴(yán)重影響性能把功率限制在50W，性能只會(huì)下降7%

RTX 4090連接器的火災(zāi)問(wèn)題

有一種誤解認(rèn)為RTX 4090電源線著火是因?yàn)檫^(guò)度彎曲其實(shí)只有0.1%的用戶有這個(gè)原因，主要問(wèn)題是線纜插的不對(duì)

因此，如果您遵循以下安裝說(shuō)明，使用RTX 4090是完全安全的。

1.如果您使用舊電纜或舊GPU，請(qǐng)確保觸點(diǎn)沒(méi)有碎屑/灰塵。

2.使用電源連接器并將其插入插座，直到您聽(tīng)到咔嗒聲—這是最重要的部分。

3.通過(guò)從左向右扭轉(zhuǎn)電源線來(lái)測(cè)試適用性電纜不應(yīng)移動(dòng)

4.目視檢查與插座的接觸情況，線纜與插座之間沒(méi)有間隙。

H100和RTX40支持8位浮點(diǎn)運(yùn)算

支持8位浮點(diǎn)是RTX 40系列和H100 GPU的一大優(yōu)勢(shì)。

8位輸入，可以讓你以兩倍的速度加載矩陣乘法的數(shù)據(jù)，可以在緩存中存儲(chǔ)兩倍的矩陣元素在Ada和Hopper架構(gòu)中，緩存非常大現(xiàn)在有了FP8張量核，你可以為RTX 4090計(jì)算0.66 PFLOPS

這比2007年世界上最快的超級(jí)計(jì)算機(jī)的計(jì)算能力總和還要高RTX 4090的運(yùn)算速度是FP8的4倍，可與2010年世界上最快的超級(jí)計(jì)算機(jī)相媲美

可以看出，最佳8位基線無(wú)法提供良好的零性能我開(kāi)發(fā)的LLM.int8方法可用于int8的矩陣乘法，結(jié)果與16位基線相同

但是Int8已經(jīng)被RTX 30/A100/Ampere支持，為什么FP8在RTX 40是大升級(jí)FP8數(shù)據(jù)類型比Int8數(shù)據(jù)類型穩(wěn)定得多，并且易于在層規(guī)范或非線性函數(shù)中使用，這在整數(shù)數(shù)據(jù)類型中很難做到

這將使其在訓(xùn)練和推理中的使用非常簡(jiǎn)單明了我覺(jué)得這樣會(huì)讓FP8的訓(xùn)練和推理在幾個(gè)月后變得相對(duì)普遍

下面你可以看到本文中關(guān)于Float和Integer數(shù)據(jù)類型的一個(gè)相關(guān)的主要結(jié)果我們可以看到，F(xiàn)P4數(shù)據(jù)類型比Int4數(shù)據(jù)類型保留了更多的信息，從而提高了四個(gè)任務(wù)的平均LLM零點(diǎn)的準(zhǔn)確性

GPU深度學(xué)習(xí)性能排名

我們來(lái)看看上圖中GPU的原始性能排名，看看誰(shuí)最能發(fā)揮。

我們可以看到H100 GPU的8位性能和針對(duì)16位性能優(yōu)化的老卡有著巨大的差距。

上圖是GPU的原始相對(duì)性能例如，對(duì)于8位推理，RTX 4090的性能大約是H100 SMX的0.33倍

換句話說(shuō)，與RTX 4090相比，H100 SMX的8位推理速度快了3倍。

對(duì)于這些數(shù)據(jù)，他沒(méi)有為舊的GPU建立8位計(jì)算模型。

由于8位推理和訓(xùn)練在Ada/Hopper GPU上更有效，張量記憶加速器節(jié)省了大量寄存器，在8位矩陣乘法中非常準(zhǔn)確。

FP8也支持Ada/Hopper，使得8位訓(xùn)練更加有效在Hopper/Ada上，8位訓(xùn)練的性能大概是16位訓(xùn)練的3—4倍

對(duì)于老GPU來(lái)說(shuō)，老GPU的Int8推理性能接近16位推理性能。

一美元能買多少計(jì)算能力。

那么問(wèn)題來(lái)了，GPU性能強(qiáng)但是我買不起。......

對(duì)于預(yù)算不足的小伙伴，接下來(lái)的圖表是他根據(jù)每個(gè)GPU的價(jià)格和性能統(tǒng)計(jì)的每美元的性能排名，體現(xiàn)了GPU的性價(jià)比。

選擇完成深度學(xué)習(xí)任務(wù)且符合預(yù)算的GPU可以分為以下幾個(gè)步驟:

首先確定自己需要多少GPU內(nèi)存，

對(duì)于選擇8位還是16位，建議可以用16位，8位在處理復(fù)雜編碼任務(wù)時(shí)還是會(huì)有困難，

根據(jù)上圖的指標(biāo)，找出相對(duì)性價(jià)比最高的GPU。

我們可以看到，對(duì)于8位和16位推理，RTX4070Ti性價(jià)比最高，而對(duì)于16位訓(xùn)練，RTX3080性價(jià)比最高。

這些GPU雖然性價(jià)比最高，但內(nèi)存也是短板，10GB和12GB內(nèi)存不一定能滿足所有要求。

但對(duì)于剛?cè)肟由顚W(xué)的新手來(lái)說(shuō)，可能是理想的GPU。

其中一些GPU非常適合Kaggle比賽，并在Kaggle比賽中取得了不錯(cuò)的成績(jī)工作方式比模型大小更重要，所以很多更小的GPU都很適合

Kaggle自稱是世界上最大的數(shù)據(jù)科學(xué)家聚集平臺(tái)，擁有大量專家，并且對(duì)孟新友好。

如果學(xué)術(shù)研究和服務(wù)器運(yùn)營(yíng)最好的GPU好像是A6000 Ada GPU。

同時(shí)H100 SXM性價(jià)比高，內(nèi)存大，性能強(qiáng)。

個(gè)人來(lái)說(shuō)，如果要為公司/學(xué)術(shù)實(shí)驗(yàn)室搭建一個(gè)小型集群，我推薦66—80%的A6000 GPU和20—33%的H100 SXM GPU。

綜合建議

說(shuō)到這里，終于到了GPU安利環(huán)節(jié)。

Tim Dettmers專門做了一個(gè)GPU購(gòu)買流程圖，預(yù)算充足的話可以獲得更高的配置如果預(yù)算不足，請(qǐng)參考性價(jià)比高的選擇

首先在這里強(qiáng)調(diào)一點(diǎn):無(wú)論你選擇哪種GPU，首先要保證它的內(nèi)存能滿足你的需求。為此，你必須問(wèn)自己幾個(gè)問(wèn)題:

我要用GPU做什么是用來(lái)參加Kaggle比賽，學(xué)習(xí)深度學(xué)習(xí)，做CV/NLP研究還是玩小項(xiàng)目

如果預(yù)算充足，可以查看上面的基準(zhǔn)，選擇最適合自己的GPU。

你也可以通過(guò)在vast.ai或者Lambda Cloud中運(yùn)行你的問(wèn)題一段時(shí)間來(lái)估算一下需要的GPU內(nèi)存，看看是否能滿足你的需求。

如果只是偶爾需要一個(gè)GPU，不需要下載處理大數(shù)據(jù)集，那么vast.ai或者Lambda Cloud也可以很好的工作。

但是，如果你一個(gè)月每天都用GPU，并且經(jīng)常使用，云GPU通常不是一個(gè)好的選擇。

參考資料:

。

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn)，請(qǐng)與有關(guān)方核實(shí)，文章觀點(diǎn)非本網(wǎng)觀點(diǎn)，僅供讀者參考。

相關(guān)新聞

精彩推薦

每周熱點(diǎn)

版塊熱門

精彩圖片

国产精品v片在线观看不卡,亚洲乱码卡一卡二卡新区仙踪林,屁屁影院ccyy备用地址,人妻熟女αⅴ一区二区三区,亚洲国产精品成人久久久

深度學(xué)習(xí)GPU選購(gòu)指南：哪款顯卡配得上我的煉丹爐