最近幾天,已收到史丹福,UCL,CMU和NYU博士offer,目前就讀于華府大學(xué)的知名評(píng)測(cè)博主蒂姆·德特默斯在其網(wǎng)站上推出了深度學(xué)習(xí)領(lǐng)域的GPU深度評(píng)測(cè)性能和性價(jià)比誰(shuí)是王者
眾所周知,在處理深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)任務(wù)時(shí),最好使用GPU而不是CPU,因?yàn)樵谏窠?jīng)網(wǎng)絡(luò)中,即使是相對(duì)低端的GPU也會(huì)勝過(guò)CPU。
深度學(xué)習(xí)是一個(gè)對(duì)計(jì)算需求很大的領(lǐng)域在一定程度上,GPU的選擇會(huì)從根本上決定深度學(xué)習(xí)的體驗(yàn)
但問(wèn)題是,如何選擇合適的GPU也是一個(gè)讓人頭疼的問(wèn)題。
如何避免踩雷,如何做出性價(jià)比高的選擇。
已經(jīng)收到史丹福博士,UCL,CMU,NYU,offer,目前就讀于華府大學(xué)的知名評(píng)測(cè)博主Tim Dettmers寫(xiě)了一篇長(zhǎng)文,探討深度學(xué)習(xí)領(lǐng)域需要什么樣的GPU,并結(jié)合自己的經(jīng)驗(yàn),最后給出了DL領(lǐng)域推薦的GPU。
Tim Dettmers的研究方向是表征學(xué)習(xí)和硬件優(yōu)化的深度學(xué)習(xí),他自己的網(wǎng)站在深度學(xué)習(xí)和計(jì)算機(jī)硬件領(lǐng)域也很有名。
本文推薦的Tim Dettmers的GPU都是N廠的他顯然也認(rèn)為AMD對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō)名不副實(shí)
邊肖的原始鏈接也貼在下面。
RTX40和30系列的優(yōu)缺點(diǎn)
與英偉達(dá)圖靈架構(gòu)RTX 20系列相比,新的英偉達(dá)安培架構(gòu)RTX 30系列具有更多優(yōu)勢(shì),如稀疏網(wǎng)絡(luò)訓(xùn)練和推理其他函數(shù),比如新的數(shù)據(jù)類型,更應(yīng)該被看作是一個(gè)易于使用的函數(shù),因?yàn)樗鼈兲峁┝伺c圖靈架構(gòu)相同的性能提升,但不需要任何額外的編程要求
阿達(dá)RTX 40系列有更多的進(jìn)展,如張量記憶加速器和8位浮點(diǎn)運(yùn)算以上介紹與RTX 30相比,RTX 40系列有類似的電源和溫度問(wèn)題通過(guò)正確連接電源電纜,可以輕松避免RTX 40電源連接器電纜熔化的問(wèn)題
稀疏網(wǎng)絡(luò)訓(xùn)練
Ampere允許以密集的速度自動(dòng)執(zhí)行細(xì)粒度結(jié)構(gòu)的稀疏矩陣乘法這是怎么做到的以一個(gè)權(quán)重矩陣為例,把它切成四個(gè)元素的塊現(xiàn)在想象這四個(gè)元素中有兩個(gè)是零圖1顯示了這種情況
圖1:1:Ampere架構(gòu)GPU中稀疏矩陣乘法函數(shù)支持的結(jié)構(gòu)
當(dāng)您將這個(gè)稀疏權(quán)重矩陣與一些密集輸入相乘時(shí),Ampere的稀疏矩陣張量核心函數(shù)會(huì)自動(dòng)將稀疏矩陣壓縮為密集表示,其大小是圖2所示的一半。
壓縮后,密集壓縮的矩陣瓦片被發(fā)送到張量核,張量核計(jì)算的矩陣乘法是通常大小的兩倍這有效地產(chǎn)生了兩倍的速度,因?yàn)樵诠蚕韮?nèi)存的矩陣乘法過(guò)程中,帶寬需求減半
圖2:矩陣相乘前,稀疏矩陣被壓縮成密集表示。
我在研究中致力于稀疏網(wǎng)絡(luò)訓(xùn)練,也寫(xiě)過(guò)一篇關(guān)于稀疏訓(xùn)練的博文對(duì)我工作的一個(gè)批評(píng)是:你減少了網(wǎng)絡(luò)需要的FLOPS數(shù)量,但并沒(méi)有提高速度,因?yàn)镚PU無(wú)法執(zhí)行快速稀疏矩陣乘法
伴隨著張量核的稀疏矩陣乘法函數(shù)的增加,我的算法或其他稀疏訓(xùn)練算法現(xiàn)在在訓(xùn)練時(shí)實(shí)際上提供了兩倍的速度。
開(kāi)發(fā)的稀疏訓(xùn)練算法有三個(gè)階段:確定每層的重要性刪除最不重要的權(quán)重提升與各層重要性成比例的新權(quán)重
雖然這個(gè)功能還在實(shí)驗(yàn)階段,訓(xùn)練稀疏網(wǎng)絡(luò)也不常見(jiàn),但在你的GPU上擁有這個(gè)功能,意味著你已經(jīng)為稀疏訓(xùn)練的未來(lái)做好了準(zhǔn)備。
低精度計(jì)算
在我的工作中,我已經(jīng)證明了新的數(shù)據(jù)類型可以提高低精度反向傳播過(guò)程中的穩(wěn)定性。
圖4:低精度深度學(xué)習(xí)8位數(shù)據(jù)類型深度學(xué)習(xí)訓(xùn)練受益于高度專業(yè)化的數(shù)據(jù)類型
目前如果要使用16位浮點(diǎn)數(shù)進(jìn)行穩(wěn)定的反向傳播,最大的問(wèn)題是常見(jiàn)的FP16數(shù)據(jù)類型只支持范圍內(nèi)的數(shù)字如果你的漸變滑過(guò)這個(gè)范圍,你的漸變會(huì)爆炸成NaN值
為了防止FP16訓(xùn)練中出現(xiàn)這種情況,我們通常會(huì)對(duì)損失進(jìn)行縮放,即在反向傳播之前將損失乘以一個(gè)小數(shù)字,以防止這種梯度爆炸。
Brain Float 16格式對(duì)于指數(shù)使用的位數(shù)較多,所以可能的數(shù)值范圍與FP32相同,BF16精度較低,也就是有效數(shù),但是梯度精度對(duì)于學(xué)習(xí)來(lái)說(shuō)并不是那么重要。
所以BF16做的就是你不再需要做任何損耗縮放,也不需要擔(dān)心漸變會(huì)很快爆炸所以我們應(yīng)該看到使用BF16格式訓(xùn)練的穩(wěn)定性有所提高,因?yàn)榫嚷杂袚p失
這對(duì)你意味著什么使用BF16精度,訓(xùn)練可能比使用FP16精度更穩(wěn)定,同時(shí)提供相同的速度增加使用TF32 precision,您可以獲得接近FP32的穩(wěn)定性,同時(shí)提供接近FP16的速度提升
要使用這些數(shù)據(jù)類型,你只需要用TF32替換FP32,用BF16替換FP16,不需要修改代碼。
但一般來(lái)說(shuō),這些新的數(shù)據(jù)類型可以被視為懶惰數(shù)據(jù)類型,因?yàn)槟梢酝ㄟ^(guò)一些額外的編程工作獲得舊數(shù)據(jù)類型的所有好處。
因此,這些數(shù)據(jù)類型不提供速度,但提高了在訓(xùn)練中使用低精度的便利性。
風(fēng)扇設(shè)計(jì)和GPU溫度
雖然RTX 30系列的新風(fēng)扇設(shè)計(jì)在冷卻GPU方面表現(xiàn)非常好,但非原裝GPU的不同風(fēng)扇設(shè)計(jì)可能會(huì)導(dǎo)致更多問(wèn)題。
如果你的GPU發(fā)熱超過(guò)80C,它會(huì)自我節(jié)流,降低計(jì)算速度/功率解決這個(gè)問(wèn)題的方法是使用PCIe擴(kuò)展器在GPU之間創(chuàng)建空間
使用PCIe擴(kuò)展器來(lái)分配GPU對(duì)于散熱是非常有效的華盛頓大學(xué)的其他博士生和我都使用過(guò)這個(gè)設(shè)置,并取得了巨大的成功
下面這個(gè)系統(tǒng)已經(jīng)運(yùn)行4年了,一點(diǎn)問(wèn)題都沒(méi)有如果沒(méi)有足夠的空間在PCIe插槽中安裝所有的GPU,也可以使用這種方法
圖5:帶PCIE擴(kuò)展口的4顯卡系統(tǒng)看起來(lái)很亂,但是散熱效率高。優(yōu)雅地解決功耗限制的問(wèn)題
可以在你的GPU上設(shè)置一個(gè)功率限制因此,您可以通過(guò)編程將RTX 3090的功率限制設(shè)置為300瓦,而不是標(biāo)準(zhǔn)的350瓦..在四個(gè)GPU系統(tǒng)中,這相當(dāng)于節(jié)省了200W,可能剛好夠用1600W PSU搭建一個(gè)4x的RTX 3090系統(tǒng)
這也有助于保持GPU冷卻所以設(shè)置功率限制可以解決4x RTX 3080或者4x RTX 3090的兩個(gè)主要問(wèn)題,即散熱和供電對(duì)于4x設(shè)置,您仍然需要一個(gè)帶高效冷卻風(fēng)扇的GPU,但這解決了電源問(wèn)題
圖6:降低功率限制有輕微的冷卻效果將RTX 2080 Ti的功率極限降低50—60W,溫度略有下降,風(fēng)扇運(yùn)轉(zhuǎn)更安靜
你可能會(huì)問(wèn),這樣不會(huì)讓GPU變慢嗎是的,會(huì)的,但問(wèn)題是多少
我在不同的功率限制下對(duì)圖5所示的4x RTX 2080 Ti系統(tǒng)進(jìn)行了基準(zhǔn)測(cè)試我在推理過(guò)程中對(duì)BERT Large的500個(gè)小批量的時(shí)間進(jìn)行了基準(zhǔn)測(cè)試選擇BERT大推理對(duì)GPU的壓力最大
圖7:RTX 2080 Ti在給定功率極限下的實(shí)測(cè)速度下降。
我們可以看到,設(shè)置功率限制并不會(huì)嚴(yán)重影響性能把功率限制在50W,性能只會(huì)下降7%
RTX 4090連接器的火災(zāi)問(wèn)題
有一種誤解認(rèn)為RTX 4090電源線著火是因?yàn)檫^(guò)度彎曲其實(shí)只有0.1%的用戶有這個(gè)原因,主要問(wèn)題是線纜插的不對(duì)
因此,如果您遵循以下安裝說(shuō)明,使用RTX 4090是完全安全的。
1.如果您使用舊電纜或舊GPU,請(qǐng)確保觸點(diǎn)沒(méi)有碎屑/灰塵。
2.使用電源連接器并將其插入插座,直到您聽(tīng)到咔嗒聲—這是最重要的部分。
3.通過(guò)從左向右扭轉(zhuǎn)電源線來(lái)測(cè)試適用性電纜不應(yīng)移動(dòng)
4.目視檢查與插座的接觸情況,線纜與插座之間沒(méi)有間隙。
H100和RTX40支持8位浮點(diǎn)運(yùn)算
支持8位浮點(diǎn)是RTX 40系列和H100 GPU的一大優(yōu)勢(shì)。
8位輸入,可以讓你以兩倍的速度加載矩陣乘法的數(shù)據(jù),可以在緩存中存儲(chǔ)兩倍的矩陣元素在Ada和Hopper架構(gòu)中,緩存非常大現(xiàn)在有了FP8張量核,你可以為RTX 4090計(jì)算0.66 PFLOPS
這比2007年世界上最快的超級(jí)計(jì)算機(jī)的計(jì)算能力總和還要高RTX 4090的運(yùn)算速度是FP8的4倍,可與2010年世界上最快的超級(jí)計(jì)算機(jī)相媲美
可以看出,最佳8位基線無(wú)法提供良好的零性能我開(kāi)發(fā)的LLM.int8方法可用于int8的矩陣乘法,結(jié)果與16位基線相同
但是Int8已經(jīng)被RTX 30/A100/Ampere支持,為什么FP8在RTX 40是大升級(jí)FP8數(shù)據(jù)類型比Int8數(shù)據(jù)類型穩(wěn)定得多,并且易于在層規(guī)范或非線性函數(shù)中使用,這在整數(shù)數(shù)據(jù)類型中很難做到
這將使其在訓(xùn)練和推理中的使用非常簡(jiǎn)單明了我覺(jué)得這樣會(huì)讓FP8的訓(xùn)練和推理在幾個(gè)月后變得相對(duì)普遍
下面你可以看到本文中關(guān)于Float和Integer數(shù)據(jù)類型的一個(gè)相關(guān)的主要結(jié)果我們可以看到,F(xiàn)P4數(shù)據(jù)類型比Int4數(shù)據(jù)類型保留了更多的信息,從而提高了四個(gè)任務(wù)的平均LLM零點(diǎn)的準(zhǔn)確性
GPU深度學(xué)習(xí)性能排名
我們來(lái)看看上圖中GPU的原始性能排名,看看誰(shuí)最能發(fā)揮。
我們可以看到H100 GPU的8位性能和針對(duì)16位性能優(yōu)化的老卡有著巨大的差距。
上圖是GPU的原始相對(duì)性能例如,對(duì)于8位推理,RTX 4090的性能大約是H100 SMX的0.33倍
換句話說(shuō),與RTX 4090相比,H100 SMX的8位推理速度快了3倍。
對(duì)于這些數(shù)據(jù),他沒(méi)有為舊的GPU建立8位計(jì)算模型。
由于8位推理和訓(xùn)練在Ada/Hopper GPU上更有效,張量記憶加速器節(jié)省了大量寄存器,在8位矩陣乘法中非常準(zhǔn)確。
FP8也支持Ada/Hopper,使得8位訓(xùn)練更加有效在Hopper/Ada上,8位訓(xùn)練的性能大概是16位訓(xùn)練的3—4倍
對(duì)于老GPU來(lái)說(shuō),老GPU的Int8推理性能接近16位推理性能。
一美元能買多少計(jì)算能力。
那么問(wèn)題來(lái)了,GPU性能強(qiáng)但是我買不起。......
對(duì)于預(yù)算不足的小伙伴,接下來(lái)的圖表是他根據(jù)每個(gè)GPU的價(jià)格和性能統(tǒng)計(jì)的每美元的性能排名,體現(xiàn)了GPU的性價(jià)比。
選擇完成深度學(xué)習(xí)任務(wù)且符合預(yù)算的GPU可以分為以下幾個(gè)步驟:
首先確定自己需要多少GPU內(nèi)存,
對(duì)于選擇8位還是16位,建議可以用16位,8位在處理復(fù)雜編碼任務(wù)時(shí)還是會(huì)有困難,
根據(jù)上圖的指標(biāo),找出相對(duì)性價(jià)比最高的GPU。
我們可以看到,對(duì)于8位和16位推理,RTX4070Ti性價(jià)比最高,而對(duì)于16位訓(xùn)練,RTX3080性價(jià)比最高。
這些GPU雖然性價(jià)比最高,但內(nèi)存也是短板,10GB和12GB內(nèi)存不一定能滿足所有要求。
但對(duì)于剛?cè)肟由顚W(xué)的新手來(lái)說(shuō),可能是理想的GPU。
其中一些GPU非常適合Kaggle比賽,并在Kaggle比賽中取得了不錯(cuò)的成績(jī)工作方式比模型大小更重要,所以很多更小的GPU都很適合
Kaggle自稱是世界上最大的數(shù)據(jù)科學(xué)家聚集平臺(tái),擁有大量專家,并且對(duì)孟新友好。
如果學(xué)術(shù)研究和服務(wù)器運(yùn)營(yíng)最好的GPU好像是A6000 Ada GPU。
同時(shí)H100 SXM性價(jià)比高,內(nèi)存大,性能強(qiáng)。
個(gè)人來(lái)說(shuō),如果要為公司/學(xué)術(shù)實(shí)驗(yàn)室搭建一個(gè)小型集群,我推薦66—80%的A6000 GPU和20—33%的H100 SXM GPU。
綜合建議
說(shuō)到這里,終于到了GPU安利環(huán)節(jié)。
Tim Dettmers專門做了一個(gè)GPU購(gòu)買流程圖,預(yù)算充足的話可以獲得更高的配置如果預(yù)算不足,請(qǐng)參考性價(jià)比高的選擇
首先在這里強(qiáng)調(diào)一點(diǎn):無(wú)論你選擇哪種GPU,首先要保證它的內(nèi)存能滿足你的需求。為此,你必須問(wèn)自己幾個(gè)問(wèn)題:
我要用GPU做什么是用來(lái)參加Kaggle比賽,學(xué)習(xí)深度學(xué)習(xí),做CV/NLP研究還是玩小項(xiàng)目
如果預(yù)算充足,可以查看上面的基準(zhǔn),選擇最適合自己的GPU。
你也可以通過(guò)在vast.ai或者Lambda Cloud中運(yùn)行你的問(wèn)題一段時(shí)間來(lái)估算一下需要的GPU內(nèi)存,看看是否能滿足你的需求。
如果只是偶爾需要一個(gè)GPU,不需要下載處理大數(shù)據(jù)集,那么vast.ai或者Lambda Cloud也可以很好的工作。
但是,如果你一個(gè)月每天都用GPU,并且經(jīng)常使用,云GPU通常不是一個(gè)好的選擇。
參考資料:
。聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn),請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
相關(guān)新聞
- 盛視科技:公司之前已推出比核酸采樣亭要求更高的口
- 首架國(guó)產(chǎn)大飛機(jī)C919飛抵武漢,后續(xù)還將在南昌、
- 建發(fā)擬62.86億元收購(gòu)紅星美凱龍29.95%股
- 機(jī)構(gòu)新年以來(lái)調(diào)研公司超百家
- 恒瑞醫(yī)藥再獲“中國(guó)杰出雇主”認(rèn)證
- 快手CTO陳定佳辭職,兩高級(jí)副總裁分擔(dān)相關(guān)職責(zé)向
- 華碩ROG冰刃X迷你主機(jī)官方圖賞:10L機(jī)身,i
- 盤(pán)點(diǎn)經(jīng)典街機(jī)游戲中那些的陷阱
- 上海商業(yè)地產(chǎn)蓄勢(shì)修復(fù)2023年市場(chǎng)需求回暖趨勢(shì)可
- 《沙石鎮(zhèn)時(shí)光》Steam春節(jié)迎史低,多人在線合作
- 消息稱蘋(píng)果iPhone15系列潛望鏡頭將由LG
- 2022年中國(guó)GDP增長(zhǎng)3%2023年經(jīng)濟(jì)向好
- 南京發(fā)布人才安居辦法B類人才購(gòu)房最高補(bǔ)貼200
- 新能源、醫(yī)療領(lǐng)域“熱場(chǎng)”央企專業(yè)化整合好戲連臺(tái)
- 中恒集團(tuán):公司治理規(guī)范生產(chǎn)經(jīng)營(yíng)情況一切正常
- 哪吒汽車與寧德時(shí)代子公司簽約首款搭載CIIC底
- 造夢(mèng)星河,科技跨年——跨年最卷:為何首個(gè)數(shù)字人
- 嘉實(shí)基金王鑫晨:樂(lè)觀看待港股投資機(jī)會(huì),互聯(lián)網(wǎng)及
- AppStore自2008年上線以來(lái),蘋(píng)果已向
- 守護(hù)萬(wàn)家團(tuán)圓,他們一直在
- 暴雪中國(guó):上周與網(wǎng)易探討順延六個(gè)月現(xiàn)有游戲服務(wù)
- 提前體驗(yàn)iPhone15?B站博主做出全球首臺(tái)
- 為減少誤觸,蘋(píng)果在iOS16.3Beta2中調(diào)
- 2022年郵政行業(yè)寄遞業(yè)務(wù)量完成1391億件,
- 河北雄安新區(qū)建設(shè)加速已有140多家央企機(jī)構(gòu)注冊(cè)
- 京東發(fā)布2023年新春賀信:疫情三年來(lái)新增28
- 新強(qiáng)聯(lián)購(gòu)子公司股權(quán)時(shí)隔月余估值增3.7億標(biāo)的公
- 湖南投資連收4個(gè)漲停板
- 洲明科技:截止目前公司整體訂單和同期相比處于持
- 匠心家居:公司暫未開(kāi)展遠(yuǎn)期結(jié)匯等套期保值業(yè)務(wù)