-
劉聰:代表人工智能第三次浪潮的快速發(fā)展,這是中國人的原創(chuàng)
最后更新: 2024-07-26 16:16:00這樣,一方面實現(xiàn)了人聲和噪聲的精確分離,另一方面,多維度的語音屬性結(jié)構(gòu)可以進一步地把聲音里的內(nèi)容、韻律、音色等處理出來,如此可以進一步地去解決雞尾酒會問題。過去幾年,訊飛連續(xù)4屆參與并獲得國際多通道語音分離和識別權(quán)威賽事CHiME的冠軍,充分證明我們的語音識別技術(shù)突破了更加復雜的場景。再進一步結(jié)合大模型,就是我們今年6月27日舉行的訊飛星火V4.0發(fā)布會上呈現(xiàn)的極復雜語音轉(zhuǎn)寫技術(shù),基于訊飛星火大模型的多模態(tài)能力,現(xiàn)場在噪聲環(huán)境下三人同時說話,正常人耳難以聽清,但我們做到了將每個人的聲音較為準確分離,并且實時轉(zhuǎn)寫出來。
訊飛星火V4.0發(fā)布會上展示的極復雜語音轉(zhuǎn)寫
作為一項技術(shù)框架的創(chuàng)新,復雜語音信號解耦建模關(guān)鍵技術(shù)還可以再延伸一下,應用到語音合成上。在過去,語音合成需要一個人錄制自己很多的聲音語料之后才能進行合成。如果我們沒有研發(fā)剛才所說的語音屬性解耦技術(shù)的話,我們就很難把很多人的聲音合成為一個合成聲音,因為若將所有的聲音全混在一起的話,可想而知會變成一個“四不像”。但是,當我們通過這項技術(shù)把每一個人的聲音屬性解耦出來之后,就可以把很多人的語音混在一起,訓練一個合成的模型,并且能夠分辨每個人的聲音之間的一些共性和特性是什么。
此后,你如果希望模擬某個人的聲音,只需要用這個人聲音的特性以及相關(guān)的數(shù)據(jù)去建模即可。我們將這些屬性進一步去建模、去控制時,如果面對一些新的發(fā)聲人,可能就不再需要那么多的語音。以前語音合成需要錄制一個人十個小時左右的語音,近幾年只需要幾分鐘;目前在大模型框架之下,只需要一句話就可以了。所以,有了語音屬性解耦技術(shù),我們不僅能解決語音識別的問題,同樣還可以達到對特定人更好的語音合成效果。
心智觀察所:本次國獎的獲獎項目為訊飛研究多年的成果,而近些年面對大模型的突然崛起,業(yè)界有聲音質(zhì)疑獲獎項目是否被大模型的到來所顛覆。請問您會如何回應這些質(zhì)疑,并請您簡單講述訊飛將如何將大模型與國獎項目相結(jié)合。
劉聰:最早的大模型技術(shù)關(guān)注的并非語音領(lǐng)域,包括OpenAI的ChatGPT在內(nèi)的大模型大部分是文本大模型,重點在于文本。
智能語音技術(shù)更多是聲學層面,但以語音識別為例,語音轉(zhuǎn)變成文字的過程中牽扯到了語言模型,即文本模型的一種。以ChatGPT等為代表的文本大模型,因為它的模型更大、語料更多、長文本的建模能力更強,本身能夠直接提升語音識別和語音翻譯等效果。
語音合成則是反方向的,從文本到語音。當我們對文本做前端分析的時候會用到一些語言模型的技術(shù),所以同樣也會文本大模型能力的提升帶來更好的效果。
其次,我們也可以進一步從文本大模型進行延伸。當有了文本大模型之后,業(yè)界開始研發(fā)一些其他種類的大模型。我們比較熟知的是從文本大模型拓展到多模態(tài)大模型,例如文生視頻模型、文生圖模型、多模態(tài)視覺理解模型等。當然,業(yè)界也有專門研究語音大模型的,套用文本大模型的框架來做語音大模型的框架。
雖然此次我們的國獎獲獎項目并沒有直接使用大模型,但是針對語音提出的一些算法創(chuàng)新,可以在大模型時代進一步與語音大模型進行結(jié)合。舉個例子,我們剛才提到的語音屬性解耦、語音信號時空分離等創(chuàng)新技術(shù),本質(zhì)上是對原始的語音信號進行處理之后,獲得更高質(zhì)量的語音編碼向量。我們可以將更高質(zhì)量的語音編碼向量處理之后,再輸入到大語言模型里,這樣做會比直接把原始語音信號進行建模的效果更好,能夠完成前端的預處理及預訓練。
原來在多語種領(lǐng)域里,國際上做得最好的一般是谷歌、微軟,他們有很多的多語種數(shù)據(jù)。但OpenAI在發(fā)布文本大模型ChatGPT之后,去年11月發(fā)布了Whisper v3的多語種語音大模型,效果非常驚人。訊飛則在去年12月開始,針對性結(jié)合此次國獎獲獎項目的一些技術(shù)訓練星火語音大模型,并于今年1月30日發(fā)布訊飛星火語音大模型。一經(jīng)發(fā)布之后,在中文、英語、法語、俄語等首批37個主流語種的語音識別效果已超過了Whisper v3。
此外,我們之前也發(fā)布了超擬人語音合成,意味著我們與機器進行語音對話時,能聽到像真人一樣的合成聲音,并且有情緒感知能力,不論在語音合成的自然度和擬人度上都有更好的表現(xiàn)。
今年1月30日訊飛星火語音大模型正式發(fā)布
這個項目涉及的創(chuàng)新方法結(jié)合場景應用,可以在通用大模型的基礎(chǔ)之上,進一步對語音問題有更好的建模和理解,同時也降低我們對多語種海量數(shù)據(jù)的需求。本項目的技術(shù)跟大模型之間可以形成互相借鑒、互相結(jié)合的關(guān)系。
心智觀察所:現(xiàn)在訓練大模型因為各種原因,需要更多地使用國產(chǎn)芯片。那么使用國產(chǎn)芯片來開展智能語音算法模型訓練和推理的時候,有哪些難點需要被克服?請問訊飛專門做了哪些優(yōu)化?
劉聰:國產(chǎn)化也是本項目的一大特點。我們一直強調(diào)國產(chǎn)自主可控,一方面是重視自己能夠掌握的算法創(chuàng)新,另一方面注重跟硬件相結(jié)合。2019年訊飛被美國列入“實體清單”時,我們就開始做儲備。目前,國產(chǎn)芯片本身在制造等方面被“卡脖子”,在性能上有一定的差距,而且芯片的軟件生態(tài)也有待發(fā)展。
對比圖像,在本項目里用國產(chǎn)芯片做語音模型訓練相對而言難度更大。說同樣一個詞,我可以說得慢、也可以說得快;在語音模型里做芯片的適配時,不同的語音長度可能會導致對算子的適配度不一樣。即使芯片在硬件參數(shù)上水平相當,但算子適配不好的情況下去直接訓練模型,很可能剛開始只有百分之二三十的效率。這樣同樣訓練一個模型,需要的時間更長,還有些算子會不支持,實際上是很重要的一個問題。
從現(xiàn)在領(lǐng)域里比較關(guān)注的端側(cè)適配的角度來看,一些國外的芯片在端側(cè)使用這些模型時,量化適配做的比較好,不論什么模型在量化后損失可控。而國產(chǎn)化的一些端側(cè)芯片量化之后,積累的誤差損失會比較大。
所以針對性能低、適配難以及語音變長等問題,項目提出了硬件親和的變長輸入算子融合和聯(lián)合統(tǒng)一量化感知訓練技術(shù),通過軟硬件協(xié)同優(yōu)化的動態(tài)張量算子自動融合方法,實現(xiàn)對語音等變長輸入的訓練性能優(yōu)化達到國際主流芯片同等水平;通過多硬件聯(lián)合的量化計算模擬,達到模型單次訓練后可在不同硬件平臺上一鍵部署,解決了智能語音技術(shù)硬件平臺的“卡脖子”問題。現(xiàn)在訊飛很多的硬件產(chǎn)品,例如錄音筆、掃描筆、辦公本、學習機等都使用了國產(chǎn)芯片,也基本在使用上面提到的算法,證明了有效性。
值得一提的是,由于我們被列入“實體清單”,導致這些工作的開展異常艱苦。但是如果沒有這些經(jīng)驗和積累,我們此后就無法與華為聯(lián)合攻關(guān),在去年共同建設(shè)出全國首個國產(chǎn)萬卡算力集群“飛星一號”,并且此后基于“飛星一號”推出訊飛星火大模型V3.5、V4.0,這些星火新版本都是在全國產(chǎn)平臺上訓練出來的。據(jù)我所知,如此大規(guī)模使用國產(chǎn)化平臺訓練模型成功的只有訊飛。
去年10月24日,“飛星一號”正式發(fā)布
所以我想強調(diào)的是,此獲得國獎的項目不光是解決了歷史上智能語音技術(shù)相關(guān)模型的國產(chǎn)化問題,更是為大模型時代的國產(chǎn)化能力奠定堅實的基礎(chǔ),讓大家看到在全國產(chǎn)算力平臺上訓練對標國際頂尖水平的大模型是完全可行的。
心智觀察所:您剛才談到了首個萬卡的全國產(chǎn)算力平臺“飛星一號”,我們想了解一下它目前的基本情況,請問此平臺目前表現(xiàn)怎么樣?
此外,因為您剛剛也談到為國產(chǎn)硬件芯片做專門的優(yōu)化非常辛苦。作為走過這條路的企業(yè)來說,你覺得國產(chǎn)芯片除了硬件的計算性能之外的軟件生態(tài)建設(shè)方面,您還有什么呼吁和建議嗎?
劉聰:從進展來說,去年底“飛星一號”整體訓練性能相對于英偉達集群已提升到90%,并且之后還在不斷優(yōu)化提升,但是整體和國外先進水平對比還是有一定差距。由于模型與模型之間的適配邏輯不完全一樣,有些不同尺寸結(jié)構(gòu)的模型需要持續(xù)地適配,我們的重點在訓練最主要的模型上,同時持續(xù)地訓練和迭代多模態(tài)模型、語音模型等。我們也將繼續(xù)與華為合作,深入完成全國產(chǎn)算力平臺相關(guān)的工作。
我認為生態(tài)是共建的,而不是靠某一家企業(yè)的算力和人工智能。如果我們想要做到英偉達一般的生態(tài)和框架,能足以應對任意一個模型,就要對各種各樣的結(jié)構(gòu)、尺寸、模型創(chuàng)新有充足的支撐,以及在硬件的底層能力上持續(xù)進行演進,變得更加友好。
對此,我有另外一個呼吁:開放算子庫。開放的方式有很多,例如從底層的算子庫到上層的框架,以及配合一些社區(qū)的內(nèi)容。目前,訊飛和華為共建的算子庫大部分都已經(jīng)共享到庫中,未來如果有更多能夠比較開放地使用算子庫的企業(yè),他們自己的很多創(chuàng)新算法就可以用這些算子去驗證,并且會不斷地去發(fā)現(xiàn)問題、閉環(huán)問題,這對于我們行業(yè)很關(guān)鍵,核心還是大家要去用。
心智觀察所:據(jù)了解,如奇瑞、一汽等車企也做過一些比較,認為訊飛的多語種智能語音技術(shù)效果全面領(lǐng)先于競品賽輪思。華為隨后也做過一個測評,稱訊飛領(lǐng)先于谷歌。請問在這些評比中具體比較的是一些什么樣的項目?
劉聰:一般評測指標有兩種,第一種為技術(shù)指標。技術(shù)指標一般需要我們要通過國際上權(quán)威的評測來做,可以理解成純算法本身的比拼。例如我們在2021年國際低資源多語種語音識別挑戰(zhàn)賽OpenASR,獲得了15個語種22項第一。故此,這種指標是一個較為學術(shù)性的指標。
你剛剛提到的這些測試主要是站在產(chǎn)品的層面來做評估,考驗端到端效果。舉個例子,在奇瑞、一汽等車企的評測里,它評估的不只是一個單點的語音識別指標,而是考慮整個汽車語音交互的流暢度、任務的信息傳達準確性、功能多樣性、喚醒成功率等各種各樣的維度。
-
本文僅代表作者個人觀點。
- 責任編輯: 武守哲 
-
歐盟港停滿中國車?“產(chǎn)能過?!辈槐冲?/a>
2024-07-26 14:51 心智觀察所視頻 -
統(tǒng)一生態(tài):鴻蒙如何踩著諾基亞和三星的“尸體”前進
2024-07-26 14:22 心智觀察所視頻 -
專稿|“藍屏網(wǎng)災”暴露三大悖論,“純血鴻蒙”另辟蹊徑
2024-07-25 15:01 心智觀察所 -
打破認知局限!我國科學家研發(fā)出這一新型材料
2024-07-25 09:39 科技前沿 -
歐盟的反補貼調(diào)查,到底圖中國啥?
2024-07-24 13:56 心智觀察所視頻 -
鴻蒙系統(tǒng)與安卓“割席”,未來勝算幾何?
2024-07-24 13:41 心智觀察所視頻 -
“慢就是快”的啟示:中國無人駕駛憑什么后來居上?
2024-07-24 09:49 心智觀察所 -
“7月24日至25日地球可能出現(xiàn)地磁暴過程”
2024-07-23 21:54 天文 -
我國科學家在月壤中首次發(fā)現(xiàn)分子水
2024-07-23 18:19 嫦娥奔月 -
新一代載人火箭三級液氫液氧發(fā)動機長程高模試驗成功
2024-07-23 10:17 航空航天 -
國內(nèi)最大、世界第二!可用于航空航天等領(lǐng)域大型核心零部件的加工處理
2024-07-20 22:18 中國精造 -
科技部通報國家重點研發(fā)計劃有關(guān)項目4個抄襲問題和1個評審請托問題
2024-07-20 14:52 學術(shù)造假 -
意義重大!中國電力體系的壯闊藍圖,正在逐步清晰
2024-07-19 13:44 電力改革 -
“中國沒有,國際也沒有,但不意味中國科學家不能做出來”
2024-07-19 08:11 科技前沿 -
我國團隊研發(fā)出太陽能動力微型無人機
2024-07-19 07:22 科技前沿 -
重大突破!我國科學家發(fā)現(xiàn)新型高溫超導體
2024-07-18 20:45 科技前沿 -
我國科學家為“尼安德特人被現(xiàn)代人所同化”提供有力遺傳學證據(jù)
2024-07-18 15:11 科技前沿 -
Open RAN之死:華為中興不戰(zhàn)而勝
2024-07-18 10:27 華為 -
手機直連衛(wèi)星,中國星鏈何時能登場?
2024-07-18 08:33 -
“設(shè)計速度400公里每小時,試驗臺速度達600公里每小時”
2024-07-18 07:13 中國精造
相關(guān)推薦 -
馬上走人了,還要對中國無人機動手 評論 86促消費為什么沒有起色?這與搞創(chuàng)新不矛盾 評論 16115死!新年首日,“恐襲”疑云籠罩美國 評論 173這一領(lǐng)域,普京指示要確保同中國合作 評論 124最新聞 Hot
-
時隔40年,美國遺留的毒垃圾終于處理了
-
沙特處決6名伊朗人,伊方:不可接受!
-
馬上走人了,還要對中國無人機動手
-
馬斯克:拜登,100%叛國
-
“美歐經(jīng)濟學家們集體搖頭”
-
“流入中國的主權(quán)基金激增21%”
-
中國首次實現(xiàn)!“領(lǐng)先馬斯克的星鏈”
-
“我倆聊吧,氣瘋他們”
-
以防長放話:如果哈馬斯不放人,加沙將遭到久違的猛烈打擊
-
《經(jīng)濟學人》“勉強”承認:中國量子發(fā)展模式“也許”更好
-
15死!新年首日,“恐襲”疑云籠罩美國
-
“美國農(nóng)民買中國貨,原因很簡單”
-
美國首席大法官:那誰試圖恐嚇法官
-
“波蘭外長,你被CIA收買了?”
-
他宣布辭職,炮轟內(nèi)塔尼亞胡政府
-
更多細節(jié):美國公民、退伍老兵、案發(fā)時揮舞ISIS旗…
-