中國投資界 > 焦點(diǎn)新聞 > 正文

奇富科技語音論文入選國際頂會(huì)INTERSPEECH2023

時(shí)間：2023-06-01 15:48:04 來源：中國網(wǎng) 閱讀量：8937

近日，奇富科技機(jī)器人團(tuán)隊(duì)論文《Eden-TTS:一種簡單高效的非自回歸“端到端可微分”神經(jīng)網(wǎng)絡(luò)的語音合成架構(gòu)》被全球語音與聲學(xué)頂級(jí)會(huì)議INTERSPEECH 2023接收。此次自研成果入選，代表著國際學(xué)術(shù)界對(duì)奇富科技在語音信號(hào)領(lǐng)域研究實(shí)力的極高認(rèn)可。

INTERSPEECH是由國際語音通訊協(xié)會(huì)創(chuàng)辦的語音信號(hào)處理領(lǐng)域頂級(jí)旗艦國際會(huì)議，是全球最大的綜合性語音信號(hào)處理盛會(huì)，在國際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。歷屆INTERSPEECH會(huì)議都備受全球各地語音語言領(lǐng)域人士的廣泛關(guān)注。

TTS技術(shù)當(dāng)前主要應(yīng)用于電銷機(jī)器人、視頻面審機(jī)器人、智能客服等人機(jī)交互場景和語音合成場景，它能把文本內(nèi)容快速地轉(zhuǎn)化為高質(zhì)量、流暢自然的語音，從而實(shí)現(xiàn)更加智能、更有人性化的人機(jī)交互。文本音素和音頻幀之間的對(duì)齊學(xué)習(xí)是非自歸TTS模型的最關(guān)鍵技術(shù)之一?，F(xiàn)有的非自回歸語音合成模型大多數(shù)需要引入外部alignment信息作為學(xué)習(xí)目標(biāo)。在實(shí)際應(yīng)用場景中，文本與語音的alignment是很難準(zhǔn)確獲得的，甚至是不能獲得的，這極大地限制了此類方法的應(yīng)用。另外，也有少數(shù)無需外部alignment的方法提出，然而這些方法大多不是端到端可微分的神經(jīng)網(wǎng)絡(luò)模型，存在構(gòu)建困難，訓(xùn)練過程復(fù)雜，訓(xùn)練效率低等問題。

奇富科技的論文研究成果為需要文本轉(zhuǎn)語音的應(yīng)用場景提供了創(chuàng)新的解決方案，提出了一種端到端可微的非自回歸神經(jīng)網(wǎng)絡(luò)語音合成模型架構(gòu)?；谖谋疽羲貢r(shí)長與alignment的密切關(guān)系，論文提出了一種簡單高效的alignment學(xué)習(xí)方式:首先采用一種新的energy-modulated 注意力機(jī)制得到guided alignment，然后利用guided alignment計(jì)算音素的時(shí)長信息，最后通過音素的時(shí)長信息構(gòu)建monotonic alignment。本方法無需外部的alignment信息，無需引入額外的alignment損失函數(shù)。

對(duì)業(yè)務(wù)提效而言，奇富科技的研究成果具有易訓(xùn)易用、音質(zhì)高超、合成快速的優(yōu)勢。

這種端到端可微的方法使得各個(gè)模塊可以方便地替換為各種類型的神經(jīng)網(wǎng)絡(luò)模塊，從而具有良好的擴(kuò)展性和穩(wěn)定性。相比于主流的自回歸模型，推理速度提升了10倍以上，能夠滿足實(shí)時(shí)語音合成的需求。

該方法也令合成語音更好聽、更生動(dòng)、更像真人，大大提升了語音交互的聽覺感受。根據(jù)進(jìn)行的多人MOS評(píng)測，該方法的MOS分值達(dá)到了4.32分，合成語音的自然流暢程度接近于目前最優(yōu)的自回歸模型，顯著優(yōu)于同類型的非自回歸模型。

此外，與同類型方法相比，該方法可以節(jié)約50%以上的訓(xùn)練時(shí)間，顯著提升模型訓(xùn)練效率。

奇富科技在對(duì)話機(jī)器人領(lǐng)域有著和業(yè)務(wù)同步的先發(fā)優(yōu)勢，在語音技術(shù)上，一直堅(jiān)持投入、堅(jiān)持自研。就在兩個(gè)月前，奇富科技另一篇音頻論文《基于多粒度Transformer的多模態(tài)情緒識(shí)別》被第48屆IEEE聲學(xué)、語音與信號(hào)處理國際會(huì)議(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023)接收。

“我們很高興在理解用戶、優(yōu)化表達(dá)方面取得了關(guān)鍵性的成果。隨著奇富GPT對(duì)于公司各業(yè)務(wù)層的重構(gòu)，我們已經(jīng)極大提升了對(duì)于用戶在文本上的理解能力，從語音到文本，再從文本回到語音，更好的識(shí)別是為了更好的表達(dá)和輸出，我們將持續(xù)投入，用前沿技術(shù)重塑用戶體驗(yàn)。”奇富科技首席算法科學(xué)家費(fèi)浩峻表示。

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問，請與有關(guān)方核實(shí)，文章觀點(diǎn)非本網(wǎng)觀點(diǎn)，僅供讀者參考。

相關(guān)新聞

精彩推薦

每周熱點(diǎn)

版塊熱門

精彩圖片

国产精品v片在线观看不卡,亚洲乱码卡一卡二卡新区仙踪林,屁屁影院ccyy备用地址,人妻熟女αⅴ一区二区三区,亚洲国产精品成人久久久

奇富科技語音論文入選國際頂會(huì)INTERSPEECH2023