-
劉聰:代表人工智能第三次浪潮的快速發(fā)展,這是中國(guó)人的原創(chuàng)
最后更新: 2024-07-26 16:16:00這樣,一方面實(shí)現(xiàn)了人聲和噪聲的精確分離,另一方面,多維度的語(yǔ)音屬性結(jié)構(gòu)可以進(jìn)一步地把聲音里的內(nèi)容、韻律、音色等處理出來(lái),如此可以進(jìn)一步地去解決雞尾酒會(huì)問(wèn)題。過(guò)去幾年,訊飛連續(xù)4屆參與并獲得國(guó)際多通道語(yǔ)音分離和識(shí)別權(quán)威賽事CHiME的冠軍,充分證明我們的語(yǔ)音識(shí)別技術(shù)突破了更加復(fù)雜的場(chǎng)景。再進(jìn)一步結(jié)合大模型,就是我們今年6月27日舉行的訊飛星火V4.0發(fā)布會(huì)上呈現(xiàn)的極復(fù)雜語(yǔ)音轉(zhuǎn)寫技術(shù),基于訊飛星火大模型的多模態(tài)能力,現(xiàn)場(chǎng)在噪聲環(huán)境下三人同時(shí)說(shuō)話,正常人耳難以聽(tīng)清,但我們做到了將每個(gè)人的聲音較為準(zhǔn)確分離,并且實(shí)時(shí)轉(zhuǎn)寫出來(lái)。
訊飛星火V4.0發(fā)布會(huì)上展示的極復(fù)雜語(yǔ)音轉(zhuǎn)寫
作為一項(xiàng)技術(shù)框架的創(chuàng)新,復(fù)雜語(yǔ)音信號(hào)解耦建模關(guān)鍵技術(shù)還可以再延伸一下,應(yīng)用到語(yǔ)音合成上。在過(guò)去,語(yǔ)音合成需要一個(gè)人錄制自己很多的聲音語(yǔ)料之后才能進(jìn)行合成。如果我們沒(méi)有研發(fā)剛才所說(shuō)的語(yǔ)音屬性解耦技術(shù)的話,我們就很難把很多人的聲音合成為一個(gè)合成聲音,因?yàn)槿魧⑺械穆曇羧煸谝黄鸬脑?,可想而知?huì)變成一個(gè)“四不像”。但是,當(dāng)我們通過(guò)這項(xiàng)技術(shù)把每一個(gè)人的聲音屬性解耦出來(lái)之后,就可以把很多人的語(yǔ)音混在一起,訓(xùn)練一個(gè)合成的模型,并且能夠分辨每個(gè)人的聲音之間的一些共性和特性是什么。
此后,你如果希望模擬某個(gè)人的聲音,只需要用這個(gè)人聲音的特性以及相關(guān)的數(shù)據(jù)去建模即可。我們將這些屬性進(jìn)一步去建模、去控制時(shí),如果面對(duì)一些新的發(fā)聲人,可能就不再需要那么多的語(yǔ)音。以前語(yǔ)音合成需要錄制一個(gè)人十個(gè)小時(shí)左右的語(yǔ)音,近幾年只需要幾分鐘;目前在大模型框架之下,只需要一句話就可以了。所以,有了語(yǔ)音屬性解耦技術(shù),我們不僅能解決語(yǔ)音識(shí)別的問(wèn)題,同樣還可以達(dá)到對(duì)特定人更好的語(yǔ)音合成效果。
心智觀察所:本次國(guó)獎(jiǎng)的獲獎(jiǎng)項(xiàng)目為訊飛研究多年的成果,而近些年面對(duì)大模型的突然崛起,業(yè)界有聲音質(zhì)疑獲獎(jiǎng)項(xiàng)目是否被大模型的到來(lái)所顛覆。請(qǐng)問(wèn)您會(huì)如何回應(yīng)這些質(zhì)疑,并請(qǐng)您簡(jiǎn)單講述訊飛將如何將大模型與國(guó)獎(jiǎng)項(xiàng)目相結(jié)合。
劉聰:最早的大模型技術(shù)關(guān)注的并非語(yǔ)音領(lǐng)域,包括OpenAI的ChatGPT在內(nèi)的大模型大部分是文本大模型,重點(diǎn)在于文本。
智能語(yǔ)音技術(shù)更多是聲學(xué)層面,但以語(yǔ)音識(shí)別為例,語(yǔ)音轉(zhuǎn)變成文字的過(guò)程中牽扯到了語(yǔ)言模型,即文本模型的一種。以ChatGPT等為代表的文本大模型,因?yàn)樗哪P透?、語(yǔ)料更多、長(zhǎng)文本的建模能力更強(qiáng),本身能夠直接提升語(yǔ)音識(shí)別和語(yǔ)音翻譯等效果。
語(yǔ)音合成則是反方向的,從文本到語(yǔ)音。當(dāng)我們對(duì)文本做前端分析的時(shí)候會(huì)用到一些語(yǔ)言模型的技術(shù),所以同樣也會(huì)文本大模型能力的提升帶來(lái)更好的效果。
其次,我們也可以進(jìn)一步從文本大模型進(jìn)行延伸。當(dāng)有了文本大模型之后,業(yè)界開(kāi)始研發(fā)一些其他種類的大模型。我們比較熟知的是從文本大模型拓展到多模態(tài)大模型,例如文生視頻模型、文生圖模型、多模態(tài)視覺(jué)理解模型等。當(dāng)然,業(yè)界也有專門研究語(yǔ)音大模型的,套用文本大模型的框架來(lái)做語(yǔ)音大模型的框架。
雖然此次我們的國(guó)獎(jiǎng)獲獎(jiǎng)項(xiàng)目并沒(méi)有直接使用大模型,但是針對(duì)語(yǔ)音提出的一些算法創(chuàng)新,可以在大模型時(shí)代進(jìn)一步與語(yǔ)音大模型進(jìn)行結(jié)合。舉個(gè)例子,我們剛才提到的語(yǔ)音屬性解耦、語(yǔ)音信號(hào)時(shí)空分離等創(chuàng)新技術(shù),本質(zhì)上是對(duì)原始的語(yǔ)音信號(hào)進(jìn)行處理之后,獲得更高質(zhì)量的語(yǔ)音編碼向量。我們可以將更高質(zhì)量的語(yǔ)音編碼向量處理之后,再輸入到大語(yǔ)言模型里,這樣做會(huì)比直接把原始語(yǔ)音信號(hào)進(jìn)行建模的效果更好,能夠完成前端的預(yù)處理及預(yù)訓(xùn)練。
原來(lái)在多語(yǔ)種領(lǐng)域里,國(guó)際上做得最好的一般是谷歌、微軟,他們有很多的多語(yǔ)種數(shù)據(jù)。但OpenAI在發(fā)布文本大模型ChatGPT之后,去年11月發(fā)布了Whisper v3的多語(yǔ)種語(yǔ)音大模型,效果非常驚人。訊飛則在去年12月開(kāi)始,針對(duì)性結(jié)合此次國(guó)獎(jiǎng)獲獎(jiǎng)項(xiàng)目的一些技術(shù)訓(xùn)練星火語(yǔ)音大模型,并于今年1月30日發(fā)布訊飛星火語(yǔ)音大模型。一經(jīng)發(fā)布之后,在中文、英語(yǔ)、法語(yǔ)、俄語(yǔ)等首批37個(gè)主流語(yǔ)種的語(yǔ)音識(shí)別效果已超過(guò)了Whisper v3。
此外,我們之前也發(fā)布了超擬人語(yǔ)音合成,意味著我們與機(jī)器進(jìn)行語(yǔ)音對(duì)話時(shí),能聽(tīng)到像真人一樣的合成聲音,并且有情緒感知能力,不論在語(yǔ)音合成的自然度和擬人度上都有更好的表現(xiàn)。
今年1月30日訊飛星火語(yǔ)音大模型正式發(fā)布
這個(gè)項(xiàng)目涉及的創(chuàng)新方法結(jié)合場(chǎng)景應(yīng)用,可以在通用大模型的基礎(chǔ)之上,進(jìn)一步對(duì)語(yǔ)音問(wèn)題有更好的建模和理解,同時(shí)也降低我們對(duì)多語(yǔ)種海量數(shù)據(jù)的需求。本項(xiàng)目的技術(shù)跟大模型之間可以形成互相借鑒、互相結(jié)合的關(guān)系。
心智觀察所:現(xiàn)在訓(xùn)練大模型因?yàn)楦鞣N原因,需要更多地使用國(guó)產(chǎn)芯片。那么使用國(guó)產(chǎn)芯片來(lái)開(kāi)展智能語(yǔ)音算法模型訓(xùn)練和推理的時(shí)候,有哪些難點(diǎn)需要被克服?請(qǐng)問(wèn)訊飛專門做了哪些優(yōu)化?
劉聰:國(guó)產(chǎn)化也是本項(xiàng)目的一大特點(diǎn)。我們一直強(qiáng)調(diào)國(guó)產(chǎn)自主可控,一方面是重視自己能夠掌握的算法創(chuàng)新,另一方面注重跟硬件相結(jié)合。2019年訊飛被美國(guó)列入“實(shí)體清單”時(shí),我們就開(kāi)始做儲(chǔ)備。目前,國(guó)產(chǎn)芯片本身在制造等方面被“卡脖子”,在性能上有一定的差距,而且芯片的軟件生態(tài)也有待發(fā)展。
對(duì)比圖像,在本項(xiàng)目里用國(guó)產(chǎn)芯片做語(yǔ)音模型訓(xùn)練相對(duì)而言難度更大。說(shuō)同樣一個(gè)詞,我可以說(shuō)得慢、也可以說(shuō)得快;在語(yǔ)音模型里做芯片的適配時(shí),不同的語(yǔ)音長(zhǎng)度可能會(huì)導(dǎo)致對(duì)算子的適配度不一樣。即使芯片在硬件參數(shù)上水平相當(dāng),但算子適配不好的情況下去直接訓(xùn)練模型,很可能剛開(kāi)始只有百分之二三十的效率。這樣同樣訓(xùn)練一個(gè)模型,需要的時(shí)間更長(zhǎng),還有些算子會(huì)不支持,實(shí)際上是很重要的一個(gè)問(wèn)題。
從現(xiàn)在領(lǐng)域里比較關(guān)注的端側(cè)適配的角度來(lái)看,一些國(guó)外的芯片在端側(cè)使用這些模型時(shí),量化適配做的比較好,不論什么模型在量化后損失可控。而國(guó)產(chǎn)化的一些端側(cè)芯片量化之后,積累的誤差損失會(huì)比較大。
所以針對(duì)性能低、適配難以及語(yǔ)音變長(zhǎng)等問(wèn)題,項(xiàng)目提出了硬件親和的變長(zhǎng)輸入算子融合和聯(lián)合統(tǒng)一量化感知訓(xùn)練技術(shù),通過(guò)軟硬件協(xié)同優(yōu)化的動(dòng)態(tài)張量算子自動(dòng)融合方法,實(shí)現(xiàn)對(duì)語(yǔ)音等變長(zhǎng)輸入的訓(xùn)練性能優(yōu)化達(dá)到國(guó)際主流芯片同等水平;通過(guò)多硬件聯(lián)合的量化計(jì)算模擬,達(dá)到模型單次訓(xùn)練后可在不同硬件平臺(tái)上一鍵部署,解決了智能語(yǔ)音技術(shù)硬件平臺(tái)的“卡脖子”問(wèn)題?,F(xiàn)在訊飛很多的硬件產(chǎn)品,例如錄音筆、掃描筆、辦公本、學(xué)習(xí)機(jī)等都使用了國(guó)產(chǎn)芯片,也基本在使用上面提到的算法,證明了有效性。
值得一提的是,由于我們被列入“實(shí)體清單”,導(dǎo)致這些工作的開(kāi)展異常艱苦。但是如果沒(méi)有這些經(jīng)驗(yàn)和積累,我們此后就無(wú)法與華為聯(lián)合攻關(guān),在去年共同建設(shè)出全國(guó)首個(gè)國(guó)產(chǎn)萬(wàn)卡算力集群“飛星一號(hào)”,并且此后基于“飛星一號(hào)”推出訊飛星火大模型V3.5、V4.0,這些星火新版本都是在全國(guó)產(chǎn)平臺(tái)上訓(xùn)練出來(lái)的。據(jù)我所知,如此大規(guī)模使用國(guó)產(chǎn)化平臺(tái)訓(xùn)練模型成功的只有訊飛。
去年10月24日,“飛星一號(hào)”正式發(fā)布
所以我想強(qiáng)調(diào)的是,此獲得國(guó)獎(jiǎng)的項(xiàng)目不光是解決了歷史上智能語(yǔ)音技術(shù)相關(guān)模型的國(guó)產(chǎn)化問(wèn)題,更是為大模型時(shí)代的國(guó)產(chǎn)化能力奠定堅(jiān)實(shí)的基礎(chǔ),讓大家看到在全國(guó)產(chǎn)算力平臺(tái)上訓(xùn)練對(duì)標(biāo)國(guó)際頂尖水平的大模型是完全可行的。
心智觀察所:您剛才談到了首個(gè)萬(wàn)卡的全國(guó)產(chǎn)算力平臺(tái)“飛星一號(hào)”,我們想了解一下它目前的基本情況,請(qǐng)問(wèn)此平臺(tái)目前表現(xiàn)怎么樣?
此外,因?yàn)槟鷦倓傄舱劦綖閲?guó)產(chǎn)硬件芯片做專門的優(yōu)化非常辛苦。作為走過(guò)這條路的企業(yè)來(lái)說(shuō),你覺(jué)得國(guó)產(chǎn)芯片除了硬件的計(jì)算性能之外的軟件生態(tài)建設(shè)方面,您還有什么呼吁和建議嗎?
劉聰:從進(jìn)展來(lái)說(shuō),去年底“飛星一號(hào)”整體訓(xùn)練性能相對(duì)于英偉達(dá)集群已提升到90%,并且之后還在不斷優(yōu)化提升,但是整體和國(guó)外先進(jìn)水平對(duì)比還是有一定差距。由于模型與模型之間的適配邏輯不完全一樣,有些不同尺寸結(jié)構(gòu)的模型需要持續(xù)地適配,我們的重點(diǎn)在訓(xùn)練最主要的模型上,同時(shí)持續(xù)地訓(xùn)練和迭代多模態(tài)模型、語(yǔ)音模型等。我們也將繼續(xù)與華為合作,深入完成全國(guó)產(chǎn)算力平臺(tái)相關(guān)的工作。
我認(rèn)為生態(tài)是共建的,而不是靠某一家企業(yè)的算力和人工智能。如果我們想要做到英偉達(dá)一般的生態(tài)和框架,能足以應(yīng)對(duì)任意一個(gè)模型,就要對(duì)各種各樣的結(jié)構(gòu)、尺寸、模型創(chuàng)新有充足的支撐,以及在硬件的底層能力上持續(xù)進(jìn)行演進(jìn),變得更加友好。
對(duì)此,我有另外一個(gè)呼吁:開(kāi)放算子庫(kù)。開(kāi)放的方式有很多,例如從底層的算子庫(kù)到上層的框架,以及配合一些社區(qū)的內(nèi)容。目前,訊飛和華為共建的算子庫(kù)大部分都已經(jīng)共享到庫(kù)中,未來(lái)如果有更多能夠比較開(kāi)放地使用算子庫(kù)的企業(yè),他們自己的很多創(chuàng)新算法就可以用這些算子去驗(yàn)證,并且會(huì)不斷地去發(fā)現(xiàn)問(wèn)題、閉環(huán)問(wèn)題,這對(duì)于我們行業(yè)很關(guān)鍵,核心還是大家要去用。
心智觀察所:據(jù)了解,如奇瑞、一汽等車企也做過(guò)一些比較,認(rèn)為訊飛的多語(yǔ)種智能語(yǔ)音技術(shù)效果全面領(lǐng)先于競(jìng)品賽輪思。華為隨后也做過(guò)一個(gè)測(cè)評(píng),稱訊飛領(lǐng)先于谷歌。請(qǐng)問(wèn)在這些評(píng)比中具體比較的是一些什么樣的項(xiàng)目?
劉聰:一般評(píng)測(cè)指標(biāo)有兩種,第一種為技術(shù)指標(biāo)。技術(shù)指標(biāo)一般需要我們要通過(guò)國(guó)際上權(quán)威的評(píng)測(cè)來(lái)做,可以理解成純算法本身的比拼。例如我們?cè)?021年國(guó)際低資源多語(yǔ)種語(yǔ)音識(shí)別挑戰(zhàn)賽OpenASR,獲得了15個(gè)語(yǔ)種22項(xiàng)第一。故此,這種指標(biāo)是一個(gè)較為學(xué)術(shù)性的指標(biāo)。
你剛剛提到的這些測(cè)試主要是站在產(chǎn)品的層面來(lái)做評(píng)估,考驗(yàn)端到端效果。舉個(gè)例子,在奇瑞、一汽等車企的評(píng)測(cè)里,它評(píng)估的不只是一個(gè)單點(diǎn)的語(yǔ)音識(shí)別指標(biāo),而是考慮整個(gè)汽車語(yǔ)音交互的流暢度、任務(wù)的信息傳達(dá)準(zhǔn)確性、功能多樣性、喚醒成功率等各種各樣的維度。
-
本文僅代表作者個(gè)人觀點(diǎn)。
- 責(zé)任編輯: 武守哲 
-
歐盟港停滿中國(guó)車?“產(chǎn)能過(guò)剩”不背鍋
2024-07-26 14:51 心智觀察所視頻 -
統(tǒng)一生態(tài):鴻蒙如何踩著諾基亞和三星的“尸體”前進(jìn)
2024-07-26 14:22 心智觀察所視頻 -
專稿|“藍(lán)屏網(wǎng)災(zāi)”暴露三大悖論,“純血鴻蒙”另辟蹊徑
2024-07-25 15:01 心智觀察所 -
打破認(rèn)知局限!我國(guó)科學(xué)家研發(fā)出這一新型材料
2024-07-25 09:39 科技前沿 -
歐盟的反補(bǔ)貼調(diào)查,到底圖中國(guó)啥?
2024-07-24 13:56 心智觀察所視頻 -
鴻蒙系統(tǒng)與安卓“割席”,未來(lái)勝算幾何?
2024-07-24 13:41 心智觀察所視頻 -
“慢就是快”的啟示:中國(guó)無(wú)人駕駛憑什么后來(lái)居上?
2024-07-24 09:49 心智觀察所 -
“7月24日至25日地球可能出現(xiàn)地磁暴過(guò)程”
2024-07-23 21:54 天文 -
我國(guó)科學(xué)家在月壤中首次發(fā)現(xiàn)分子水
2024-07-23 18:19 嫦娥奔月 -
新一代載人火箭三級(jí)液氫液氧發(fā)動(dòng)機(jī)長(zhǎng)程高模試驗(yàn)成功
2024-07-23 10:17 航空航天 -
國(guó)內(nèi)最大、世界第二!可用于航空航天等領(lǐng)域大型核心零部件的加工處理
2024-07-20 22:18 中國(guó)精造 -
-
意義重大!中國(guó)電力體系的壯闊藍(lán)圖,正在逐步清晰
2024-07-19 13:44 電力改革 -
“中國(guó)沒(méi)有,國(guó)際也沒(méi)有,但不意味中國(guó)科學(xué)家不能做出來(lái)”
2024-07-19 08:11 科技前沿 -
我國(guó)團(tuán)隊(duì)研發(fā)出太陽(yáng)能動(dòng)力微型無(wú)人機(jī)
2024-07-19 07:22 科技前沿 -
重大突破!我國(guó)科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體
2024-07-18 20:45 科技前沿 -
我國(guó)科學(xué)家為“尼安德特人被現(xiàn)代人所同化”提供有力遺傳學(xué)證據(jù)
2024-07-18 15:11 科技前沿 -
Open RAN之死:華為中興不戰(zhàn)而勝
2024-07-18 10:27 華為 -
手機(jī)直連衛(wèi)星,中國(guó)星鏈何時(shí)能登場(chǎng)?
2024-07-18 08:33 -
“設(shè)計(jì)速度400公里每小時(shí),試驗(yàn)臺(tái)速度達(dá)600公里每小時(shí)”
2024-07-18 07:13 中國(guó)精造
相關(guān)推薦 -
星辰大海第二站,天問(wèn)二號(hào)為何選它? 評(píng)論 8印度人把抵制矛頭對(duì)準(zhǔn)了這兩國(guó) 評(píng)論 215特朗普準(zhǔn)備賣了“美國(guó)之音”總部大樓 評(píng)論 174美大使“委屈”上了:加拿大抵制美貨是侮辱 評(píng)論 69沃爾瑪準(zhǔn)備以關(guān)稅為由漲價(jià),特朗普威脅 評(píng)論 169最新聞 Hot
-
特朗普準(zhǔn)備賣了“美國(guó)之音”總部大樓
-
沃爾瑪準(zhǔn)備以關(guān)稅為由漲價(jià),特朗普威脅
-
馬克龍“搭手示強(qiáng)”,反被埃爾多安“拿捏”
-
他痛批特朗普撒謊“不值一駁”,“令美國(guó)人民蒙羞”
-
美大使“委屈”上了:加拿大抵制美貨是侮辱
-
面臨高關(guān)稅壓力,越美完成首次線下部長(zhǎng)級(jí)磋商
-
臺(tái)“邦交”危機(jī)再起?“不意外,轉(zhuǎn)向或已近尾聲”
-
“船、箱雙雙告急!兩個(gè)月后更糟了”
-
克宮:“普澤會(huì)”有可能,只要…
-
小米汽車回應(yīng)“部分SU7前保險(xiǎn)杠形變”
-
惡意傳播涉劉國(guó)梁不實(shí)信息,杜某川、湯某被處罰
-
韓船企利潤(rùn)大增,中國(guó)被撼動(dòng)?
-
美軍高官急眼:中國(guó)在拉美居然整了10個(gè),沒(méi)人管…
-
無(wú)法一一談判,特朗普放話:將被單方面加稅
-
湖南懷化舞水河近期出現(xiàn)大量死魚,當(dāng)?shù)鼗貞?yīng)
-
穆迪下調(diào)美國(guó)信用評(píng)級(jí),白宮急了:這是政治決定
快訊- 伊朗外長(zhǎng):無(wú)論是否達(dá)成協(xié)議,伊朗的鈾濃縮活動(dòng)都將繼續(xù)
- 企業(yè)為提升信譽(yù)口碑自曝為國(guó)安機(jī)關(guān)合作供應(yīng)商,造成失泄密風(fēng)險(xiǎn)
- 拜登確診前列腺癌,癌細(xì)胞已擴(kuò)散至骨骼
- “哈馬斯加沙軍事領(lǐng)導(dǎo)人被打死”,系前領(lǐng)導(dǎo)人辛瓦爾弟弟
- 江蘇疾控聲明:常榮山與我們無(wú)關(guān)
- 教皇利奧十四世正式任職
- 學(xué)者三年實(shí)地調(diào)查,竟被判AI代筆?!
- 新疆夜空不明飛行物是什么?揭秘來(lái)了
-