国产精品v片在线观看不卡,亚洲乱码卡一卡二卡新区仙踪林,屁屁影院ccyy备用地址,人妻熟女αⅴ一区二区三区,亚洲国产精品成人久久久

AI理解不了“他她它”咋辦?動詞成為新突破口,機(jī)器人聽到抹黃油就知道拿刀

時間:2022-12-03 15:58:10 來源:IT之家 閱讀量:18935

給AI下指令的時候,總覺得和人交流不一樣。

AI理解不了“他她它”咋辦?動詞成為新突破口,機(jī)器人聽到抹黃油就知道拿刀

是的,雖然AI可以理解一些特定的人類指令,比如:

幫我從餐廳拿把椅子。

但如果改成只有代詞和動詞的模糊指令,AI會很困惑:

幫我找個能墊腳的東西。

現(xiàn)在,終于有研究人員提出了一種新的處理方法:AI不能學(xué)習(xí)理解動詞嗎。

動詞本身和一些特定的名詞綁定在一起比如抹黃油這個動作,肯定離不開刀叉之類的名詞

只需要將它們進(jìn)行匹配,無需刀叉等名詞指令,AI也能準(zhǔn)確找出目標(biāo)對象:

目前,該論文正式收錄于NeurIPS 2022,相關(guān)模型已經(jīng)開源:

那么它是如何訓(xùn)練AI理解動詞的呢。

蓋名詞,讓AI看圖找東西

本文提出了一個稱為TOIST的框架。

TOIST面向任務(wù)的實例分割轉(zhuǎn)換器,這是一種基于轉(zhuǎn)換器的實例分割新方案。

實例分割不同于語義分割的全圖切割,它還具有目標(biāo)檢測的特點。比如下圖直接找出與名詞兩廂對應(yīng)的對象:

此前,案件分割模型通常分為兩步第一步是檢測可能的目標(biāo),第二步是對可能的目標(biāo)進(jìn)行排序并預(yù)測最可能的結(jié)果

但與這種方式不同的是,TOIST框架直接采用了一個整體的Transformer框架,其中解碼器中的自我關(guān)注機(jī)制可以建立候選目標(biāo)之間的偏好關(guān)系。

TOIST框架分為三個部分。

其中,多模態(tài)編碼器負(fù)責(zé)提取特征標(biāo)記,變換器編碼器負(fù)責(zé)聚合兩種模式的特征,并基于變換器解碼器中的注意機(jī)制預(yù)測最合適的目標(biāo)。

隨后,提出了一種新的名詞—代詞提取方法來訓(xùn)練模型。

具體來說,基于知識提煉框架,以無監(jiān)督學(xué)習(xí)的方式訓(xùn)練AI通過上下文猜測名詞原型。

比如原來的實例分割任務(wù)是用滑板挖洞,但是在訓(xùn)練模型的時候,名詞滑板會被代詞某物代替:

這種分割效果在實際案例中表現(xiàn)如何。

目標(biāo)探測準(zhǔn)確率提高10.9%

本文在大規(guī)模任務(wù)數(shù)據(jù)集COCO—Tasks上對TOIST進(jìn)行了測試。

評價方法采用mAP,常見于目標(biāo)檢測等視覺任務(wù)。

簡單來說,TOIST在例如分割和目標(biāo)檢測方面比以前的SOTA模型表現(xiàn)得更好,而添加了名詞代詞提取方法的增強(qiáng)版TOIST的表現(xiàn)比TOIST in好上一層樓。

與目前最好的Yolo+GGNN相比,增強(qiáng)版TOIST的決策幀精度圖在目標(biāo)檢測任務(wù)中提高了10.9%,在案例分割任務(wù)中,mask精度比Mask—RCNN+GGNN提高了6.6%。

對于名詞—代詞提取方法,與TOIST的原始版本相比,實例切分的準(zhǔn)確率分別提高了2.8%和3.8%。

在具體的案例表現(xiàn)上,模型效果也非常接近實際的分割真值。

比如圖中,算法甚至識別出啤酒瓶蓋可以用桌子打開,在理解上可以說是滿分:

我們實驗室其實是負(fù)責(zé)機(jī)器人的研究的,但是在平時的調(diào)查中發(fā)現(xiàn),用戶有時候更喜歡向機(jī)器人描述需求,而不是直接告訴他們該做什么。

換句話說,AI算法是用來讓機(jī)器人想得更多,而不僅僅是一個聽從命令的助手。

李鵬飛,清華大學(xué)智能產(chǎn)業(yè)研究院博士生,畢業(yè)于中國科學(xué)院大學(xué)他的研究興趣是自動駕駛和計算機(jī)視覺

對大視覺—語言模型感興趣的朋友可以試試這個新思路~

論文地址:

項目地址:



聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費建議。文章事實如有疑問,請與有關(guān)方核實,文章觀點非本網(wǎng)觀點,僅供讀者參考。
hhx6 精彩圖片