中國投資界 > 投資資訊 > 正文

Meta發(fā)布首個「非參數(shù)化」掩碼語言模型NPM：吊打500倍參數(shù)量的GP

時間：2022-12-28 13:47:44 來源：IT之家閱讀量：17865

Meta發(fā)布了第一個非參數(shù)掩蔽語言模型NPM:那一年，我把手放在口袋里，不知道什么是詞匯之外。

Meta發(fā)布首個「非參數(shù)化」掩碼語言模型NPM：吊打500倍參數(shù)量的GP

雖然大規(guī)模語言模型在NLP領(lǐng)域的強(qiáng)大表現(xiàn)令人驚嘆，但也帶來了嚴(yán)重的負(fù)成本，比如訓(xùn)練太貴，更新困難而且很難處理長尾知識

而且語言模型在預(yù)測層通常采用一個詞匯量有限的softmax層，基本不會輸出生僻字或短語，大大限制了模型的表達(dá)能力。

為了解決模型的長尾問題，最近來自華盛頓大學(xué)，Meta AI和艾倫人工智能研究所的學(xué)者聯(lián)合提出了首個非參數(shù)掩蔽語言模型，通過參考語料庫中每個短語的非參數(shù)分布來替代softmax輸出。

通過比較目標(biāo)和在批量中搜索完整的語料庫，可以有效地訓(xùn)練NPM。

研究人員對9個封閉任務(wù)和7個開放任務(wù)進(jìn)行了零射評估，其中包括強(qiáng)調(diào)需要預(yù)測新事實(shí)或罕見短語的時空轉(zhuǎn)換和單詞級翻譯的任務(wù)。

發(fā)現(xiàn)NPM明顯優(yōu)于更大的參數(shù)模型，如參數(shù)量高500倍的GPT—3和參數(shù)量高37倍的OPT 13B，NPM尤其擅長處理稀有模式和預(yù)測稀有或幾乎未知的詞。

第一個非參數(shù)語言模型

雖然結(jié)合一些現(xiàn)有的檢索和生成相關(guān)工作可以緩解這個問題，但是這些模型的最終預(yù)測部分仍然需要一個softmax層來預(yù)測token，并沒有從根本上解決長尾問題。

NPM由編碼器和參考語料庫組成編碼器將文本映射到一個固定大小的向量中，然后NPM從中檢索一個短語并填充它

可以看出，NPM選擇了在短語上獲得的非參數(shù)分布，而不是使用固定輸出詞匯softmax作為其輸出。

但是訓(xùn)練非參數(shù)模型也會帶來兩個關(guān)鍵問題:

1.在訓(xùn)練過程中搜索完整的語料庫是非常費(fèi)時費(fèi)力的。研究人員通過使用完整語料庫搜索的批內(nèi)近似來解決它，

2.沒有解碼器，很難學(xué)會預(yù)測任意長度的短語研究者通過擴(kuò)展跨度掩蔽和短語水平的比較目標(biāo)來解決這個問題

總之，NPM完全刪除了輸出詞匯的softmax，通過預(yù)測任意數(shù)量的N—gram，實(shí)現(xiàn)了有效的無界輸出空間。

由此產(chǎn)生的模型可以預(yù)測極其罕見甚至完全未知的單詞，并且可以有效地支持無限的詞匯量，這是現(xiàn)有模型所做不到的。

NPM方法

NPM的核心思想是通過使用編碼器將語料庫中的所有短語映射到密集的向量空間在推理中，當(dāng)給定一個帶有的查詢時，編碼器用于從語料庫中找到最近的短語并填充它

純編碼器模型是一個非常有競爭力的表示模型，但現(xiàn)有的純編碼器模型不能預(yù)測未知的令牌數(shù)，這限制了它們在沒有微調(diào)的情況下的使用。

NPM通過檢索一個短語來填充任意數(shù)量的令牌來解決這個問題。

理由

編碼器將參考語料庫C中的每個不同短語映射到密集向量空間。

在測試期間，編碼器將屏蔽的查詢映射到相同的向量空間，并從C中檢索短語來填充它。

這里，C不必與訓(xùn)練語料庫相同，并且可以在測試期間替換或擴(kuò)展，而無需重新訓(xùn)練編碼器。

在實(shí)踐中，語料庫中有大量的短語，對所有的短語進(jìn)行索引是非常昂貴的。

例如，如果我們考慮一個最多有L個標(biāo)記的短語，我們需要索引l×

化簡為|C|，然后在測試中，分別在開頭和結(jié)尾用K—近鄰搜索逼近所有短語的非參數(shù)分布。

例如，由四個BPE令牌組成的短語Thessaloniki由c1和c4的連接來表示，分別對應(yīng)于該短語的開頭和結(jié)尾。

然后用同一個向量空間中的兩個向量q_start和q_end來表示一個查詢，再用每個向量來檢索似是而非的短語的開頭和結(jié)尾，然后進(jìn)行聚合。

這樣做的前提是開頭和結(jié)尾有很好的表現(xiàn)，即Q起點(diǎn)足夠接近c(diǎn)1，Q終點(diǎn)足夠接近c(diǎn)4，這一點(diǎn)在訓(xùn)練過程中已經(jīng)得到保證。

火車

NPM在未標(biāo)記的文本數(shù)據(jù)上被訓(xùn)練，以確保編碼器將文本映射到良好的密集向量空間。

在訓(xùn)練NPM時存在兩個主要問題:1)完整的語料庫搜索將使訓(xùn)練非常耗時，2)用任意長度的短語代替標(biāo)記進(jìn)行掩碼。

1.掩模掩蔽

段掩碼是對長度從幾何分布中采樣的連續(xù)令牌進(jìn)行掩碼。

研究人員對此進(jìn)行了擴(kuò)展:

1)如果一些片段同時出現(xiàn)在該批中的其他序列中，屏蔽它們以確保在訓(xùn)練期間該批中的批內(nèi)陽性。

例如，封鎖部分2010年，西雅圖海鷹隊(duì)和所有出現(xiàn)在另一個序列。

但是對于bigram游戲來說，它是不能一起面具的雖然它們都出現(xiàn)在兩個序列中，但它們不會同時出現(xiàn)

2)不是用(掩碼)替換一個段中的每個記號，而是用兩個特殊記號(掩碼)(掩碼)替換整個段。

比如上面的例子，不管要屏蔽的線段有多長，都用(mask)代替，這樣就可以得到每一段的起始和結(jié)束向量，更便于推理。

2.訓(xùn)練目的

假設(shè)面具片段是西雅圖海鷹，模型應(yīng)該在測試期間從參考語料庫的其他序列中檢索短語西雅圖海鷹。

在推理階段，該模型從sum (MASKe)中獲得向量，并使用它們從語料庫中檢索短語的開頭和結(jié)尾。

因此，訓(xùn)練目標(biāo)應(yīng)該鼓勵向量更接近西雅圖海鷹隊(duì)中的the ，而遠(yuǎn)離其他token，而不應(yīng)該是任何短語中的the ，例如be the first。

這可以通過訓(xùn)練模型來完成，訓(xùn)練是通過將完整的語料庫批量地近似到其他序列具體來說，訓(xùn)練模型從同一批的其他序列中檢索西雅圖海鷹隊(duì)的起點(diǎn)和終點(diǎn)

值得注意的是，這種屏蔽策略可確保每個屏蔽跨度在一個批次中有一個公共段。

實(shí)驗(yàn)部分

從結(jié)果來看，NPM在零鏡頭設(shè)置下的性能優(yōu)于其他基線模型。

在參數(shù)模型中，RoBERTa的性能最好，出人意料地超過了包括GPT—3等在內(nèi)的模型，可能是因?yàn)榧兙幋a器模型的雙向性質(zhì)起著至關(guān)重要的作用，這也表明因果語言模型可能不是一個合適的分類選擇

KNN—LM方法在參數(shù)模型中加入了非參數(shù)成分，其性能優(yōu)于其他所有基線可是，在GPT—2中單獨(dú)檢索的性能較差，這表明僅在推理中使用kNN是有限的

NPM單和NPM的表現(xiàn)明顯優(yōu)于所有基線，在所有數(shù)據(jù)集上都取得了一致的優(yōu)越表現(xiàn)這表明，即使對于不明確需要外部知識的任務(wù)，非參數(shù)模型也是非常有競爭力的

定性分析使用羅伯塔和NPM在情感分析任務(wù)中的預(yù)測結(jié)果在第一個例子中，便宜意味著不貴，在第二個例子中，便宜意味著質(zhì)量差

羅伯塔對這兩個例子的預(yù)測是肯定的，而NPM通過搜索廉價在與輸入相同的上下文中使用的上下文，做出了正確的預(yù)測。

還可以發(fā)現(xiàn)，NPM輸出的表征可以帶來更好的詞義消歧例如，RoBERTa在廉價和便宜(質(zhì)量差)之間分配了很高的相似性分?jǐn)?shù)

另一方面，NPM成功地在廉價和廉價之間分配了一個低的相似性分?jǐn)?shù)，這也表明非參數(shù)訓(xùn)練和對比目標(biāo)是有效的，可以更好地改善表征學(xué)習(xí)，而未經(jīng)訓(xùn)練的算法如kNN推理根本做不到。

參考資料:

。

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問，請與有關(guān)方核實(shí)，文章觀點(diǎn)非本網(wǎng)觀點(diǎn)，僅供讀者參考。

相關(guān)新聞

精彩推薦

每周熱點(diǎn)

版塊熱門

精彩圖片

国产精品v片在线观看不卡,亚洲乱码卡一卡二卡新区仙踪林,屁屁影院ccyy备用地址,人妻熟女αⅴ一区二区三区,亚洲国产精品成人久久久

Meta發(fā)布首個「非參數(shù)化」掩碼語言模型NPM：吊打500倍參數(shù)量的GP