近日,奇富科技機(jī)器人團(tuán)隊(duì)論文《Eden-TTS:一種簡單高效的非自回歸“端到端可微分”神經(jīng)網(wǎng)絡(luò)的語音合成架構(gòu)》被全球語音與聲學(xué)頂級(jí)會(huì)議INTERSPEECH 2023接收。此次自研成果入選,代表著國際學(xué)術(shù)界對(duì)奇富科技在語音信號(hào)領(lǐng)域研究實(shí)力的極高認(rèn)可。
INTERSPEECH是由國際語音通訊協(xié)會(huì)創(chuàng)辦的語音信號(hào)處理領(lǐng)域頂級(jí)旗艦國際會(huì)議,是全球最大的綜合性語音信號(hào)處理盛會(huì),在國際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。歷屆INTERSPEECH會(huì)議都備受全球各地語音語言領(lǐng)域人士的廣泛關(guān)注。

TTS技術(shù)當(dāng)前主要應(yīng)用于電銷機(jī)器人、視頻面審機(jī)器人、智能客服等人機(jī)交互場景和語音合成場景,它能把文本內(nèi)容快速地轉(zhuǎn)化為高質(zhì)量、流暢自然的語音,從而實(shí)現(xiàn)更加智能、更有人性化的人機(jī)交互。文本音素和音頻幀之間的對(duì)齊學(xué)習(xí)是非自歸TTS模型的最關(guān)鍵技術(shù)之一?,F(xiàn)有的非自回歸語音合成模型大多數(shù)需要引入外部alignment信息作為學(xué)習(xí)目標(biāo)。在實(shí)際應(yīng)用場景中,文本與語音的alignment是很難準(zhǔn)確獲得的,甚至是不能獲得的,這極大地限制了此類方法的應(yīng)用。另外,也有少數(shù)無需外部alignment的方法提出,然而這些方法大多不是端到端可微分的神經(jīng)網(wǎng)絡(luò)模型,存在構(gòu)建困難,訓(xùn)練過程復(fù)雜,訓(xùn)練效率低等問題。
奇富科技的論文研究成果為需要文本轉(zhuǎn)語音的應(yīng)用場景提供了創(chuàng)新的解決方案,提出了一種端到端可微的非自回歸神經(jīng)網(wǎng)絡(luò)語音合成模型架構(gòu)?;谖谋疽羲貢r(shí)長與alignment的密切關(guān)系,論文提出了一種簡單高效的alignment學(xué)習(xí)方式:首先采用一種新的energy-modulated 注意力機(jī)制得到guided alignment,然后利用guided alignment計(jì)算音素的時(shí)長信息,最后通過音素的時(shí)長信息構(gòu)建monotonic alignment。本方法無需外部的alignment信息,無需引入額外的alignment損失函數(shù)。
對(duì)業(yè)務(wù)提效而言,奇富科技的研究成果具有易訓(xùn)易用、音質(zhì)高超、合成快速的優(yōu)勢。
這種端到端可微的方法使得各個(gè)模塊可以方便地替換為各種類型的神經(jīng)網(wǎng)絡(luò)模塊,從而具有良好的擴(kuò)展性和穩(wěn)定性。相比于主流的自回歸模型,推理速度提升了10倍以上,能夠滿足實(shí)時(shí)語音合成的需求。
該方法也令合成語音更好聽、更生動(dòng)、更像真人,大大提升了語音交互的聽覺感受。根據(jù)進(jìn)行的多人MOS評(píng)測,該方法的MOS分值達(dá)到了4.32分,合成語音的自然流暢程度接近于目前最優(yōu)的自回歸模型,顯著優(yōu)于同類型的非自回歸模型。
此外,與同類型方法相比,該方法可以節(jié)約50%以上的訓(xùn)練時(shí)間,顯著提升模型訓(xùn)練效率。
奇富科技在對(duì)話機(jī)器人領(lǐng)域有著和業(yè)務(wù)同步的先發(fā)優(yōu)勢,在語音技術(shù)上,一直堅(jiān)持投入、堅(jiān)持自研。就在兩個(gè)月前,奇富科技另一篇音頻論文《基于多粒度Transformer的多模態(tài)情緒識(shí)別》被第48屆IEEE聲學(xué)、語音與信號(hào)處理國際會(huì)議(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023)接收。
“我們很高興在理解用戶、優(yōu)化表達(dá)方面取得了關(guān)鍵性的成果。隨著奇富GPT對(duì)于公司各業(yè)務(wù)層的重構(gòu),我們已經(jīng)極大提升了對(duì)于用戶在文本上的理解能力,從語音到文本,再從文本回到語音,更好的識(shí)別是為了更好的表達(dá)和輸出,我們將持續(xù)投入,用前沿技術(shù)重塑用戶體驗(yàn)。”奇富科技首席算法科學(xué)家費(fèi)浩峻表示。
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問,請與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
相關(guān)新聞
- 騰訊音樂注冊多款“文曲大模型”商標(biāo),未來有望推A
- 剪映專業(yè)版4.2.0Beta版發(fā)布:支持并行場景
- 追風(fēng)者推出新款NV5/9系列機(jī)箱以及新款Revo
- 華碩展示RT-BE96UWi-Fi7路由器,英特
- 三星49英寸玄龍騎士OLEDG9顯示器今晚開賣:
- 微星推出先鋒17游戲本:首批搭載高通FastCo
- 聯(lián)想YOGAAir32超薄一體機(jī)今晚開售:32英
- 鴻海董事長劉揚(yáng)偉:鴻海AI服務(wù)器搭載英偉達(dá)芯片,
- 涵蓋筆記本智慧屏NAS手環(huán),華為多款新品今晚8點(diǎn)
- 榮耀成立集成電路設(shè)計(jì)新公司趙明稱“按需制定自研芯


- 亞馬遜Kindle中國電子書店6月30日停運(yùn)
- 基金發(fā)行跌入冰點(diǎn)基金經(jīng)理“自購潮”釋放筑底信號(hào)
- 動(dòng)視暴雪CEO科蒂克再談微軟收購案:若成功有利
- 福建三明:階段性提高公積金貸款最高可貸額度,部
- 落地半年個(gè)人養(yǎng)老金制度實(shí)施進(jìn)展如何?
- 郵儲(chǔ)銀行發(fā)布首份《環(huán)境信息披露TCFD報(bào)告》
- 擴(kuò)大就業(yè)渠道促消費(fèi)動(dòng)能提升
- 滿懷可愛麻辣燙麻辣拌,2023餐飲小投資項(xiàng)目人
- 德興市靈豐網(wǎng)絡(luò)科技有限公司被凍結(jié)93萬余元
- 歐科億開拓海外市場拿下1.5億大單聚焦主業(yè)營收

- 奧馬電器擬收購TCL合肥家電100%股權(quán)
- 惠普新款暗影精靈9銳龍版筆記本今晚開售:R77
- realmeGTNeo5手機(jī)150W新版16G
- 融合共享數(shù)字化轉(zhuǎn)型長江智慧商貿(mào)港企業(yè)聯(lián)盟合作簽
- 優(yōu)勢互補(bǔ)戰(zhàn)略升級(jí)長江智慧商貿(mào)港水產(chǎn)行業(yè)高質(zhì)量發(fā)
- 七工匠推出旗下首款DMic-S麥克風(fēng):支持雙發(fā)
- 華盛鋰電跌6.98%創(chuàng)新低去年上市即巔峰超募1
- 華為推出首款入門級(jí)商用閃存系統(tǒng)OceanSto
- Canalys:2023年Q1全球高端智能手機(jī)
- 59元蹲點(diǎn)搶:小米小愛音箱Play增強(qiáng)版4折百