-
劉聰:代表人工智能第三次浪潮的快速發(fā)展,這是中國人的原創(chuàng)
最后更新: 2024-07-26 16:16:00不久前,科大訊飛作為第一完成單位的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目,榮獲2023年度國家科學(xué)技術(shù)進(jìn)步獎一等獎,這是過去十年人工智能領(lǐng)域首個(gè)國家科學(xué)技術(shù)進(jìn)步獎一等獎,對引領(lǐng)我國的語音產(chǎn)業(yè),支撐智能制造產(chǎn)業(yè)出海和升級等都有重要意義。
觀察者網(wǎng)·心智觀察所日前與科大訊飛研究院院長劉聰進(jìn)行了一次交流,討論了科大訊飛最新的語音技術(shù)進(jìn)展、現(xiàn)有語音技術(shù)與大模型的結(jié)合、國產(chǎn)芯片及生態(tài)建設(shè)等問題。在對話中,劉聰提到了訊飛現(xiàn)有多語種智能語音技術(shù)的領(lǐng)先優(yōu)勢,目前已經(jīng)應(yīng)用在多個(gè)產(chǎn)品中,支撐中國智造出海。訊飛采用國產(chǎn)芯片做語音模型訓(xùn)練,難度很大,工作開展異常艱苦,劉聰呼吁各個(gè)企業(yè)聯(lián)合建設(shè)更完善的軟件生態(tài)。
項(xiàng)目主要完成人代表在領(lǐng)獎后合影
對話全文如下:
心智觀察所:科大訊飛這次作為第一個(gè)完成多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化的單位,獲得了國家科學(xué)技術(shù)進(jìn)步獎一等獎。據(jù)聞,這是過去十年人工智能領(lǐng)域首個(gè)一等獎。請您總體上介紹一下此項(xiàng)目的基本情況,它的背景和意義。
劉聰:我們這次得獎項(xiàng)目的核心是智能語音技術(shù),也是訊飛的初心。在這個(gè)項(xiàng)目歷經(jīng)的十年間,深度學(xué)習(xí)領(lǐng)域發(fā)展迅速,也代表著人工智能第三次浪潮的快速發(fā)展。在這一背景下,此次也是過去十年人工智能領(lǐng)域首個(gè)國家科學(xué)技術(shù)進(jìn)步獎一等獎。
智能語音領(lǐng)域?qū)ξ覀円恢焙苤匾?。過去十年里,我們一直強(qiáng)調(diào)語音作為人類最自然、最便捷的交流方式,是萬物互聯(lián)、人機(jī)交互的關(guān)鍵入口。
在人工智能領(lǐng)域里,多語種智能語音廣受關(guān)注。訊飛雖然是從中文語音技術(shù)起家,但我們在過去十年里逐步拓展到更多語種以及方言領(lǐng)域當(dāng)中,這是一個(gè)非常重要的跨越。
國家科學(xué)技術(shù)進(jìn)步獎主要考量兩大方面,一是提報(bào)項(xiàng)目需要有核心技術(shù)創(chuàng)新,代表中國從技術(shù)原創(chuàng)角度在世界上取得領(lǐng)先。另一方面,與其他獎項(xiàng)不同,國家科學(xué)技術(shù)進(jìn)步獎特別強(qiáng)調(diào)提報(bào)項(xiàng)目的技術(shù)創(chuàng)新能否帶來大規(guī)模的產(chǎn)業(yè)化落地。
從技術(shù)創(chuàng)新上來看,語音領(lǐng)域涉及合成、識別等技術(shù),本項(xiàng)目主要針對智能語音關(guān)鍵技術(shù)產(chǎn)業(yè)化中攻克了多項(xiàng)技術(shù)難題,例如面向很多復(fù)雜場景時(shí),會出現(xiàn)語音識別聽不準(zhǔn)、語音合成不自然、口語理解歧義等問題,以及當(dāng)我們從中英文向多語種拓展、走向全球化的時(shí)候,出現(xiàn)數(shù)據(jù)資源稀缺的問題。在持續(xù)攻關(guān)中,我們提出了四個(gè)方面的關(guān)鍵技術(shù)創(chuàng)新:復(fù)雜語音信號解耦建模關(guān)鍵技術(shù)突破、多語種共享建模關(guān)鍵技術(shù)突破、語音語義聯(lián)合建模關(guān)鍵技術(shù)突破、語音語義聯(lián)合建模關(guān)鍵技術(shù)突破、國產(chǎn)異構(gòu)硬件平臺訓(xùn)練及推理加速關(guān)鍵技術(shù)突破。通過這些技術(shù)創(chuàng)新,我們解決了剛剛所說的技術(shù)難題,實(shí)現(xiàn)了在多個(gè)行業(yè)領(lǐng)域和智能設(shè)備上的應(yīng)用落地。
總結(jié)來說,本項(xiàng)目的意義,第一在于開創(chuàng)引領(lǐng)了我國的語音產(chǎn)業(yè),支撐智能制造產(chǎn)業(yè)出海和升級。
第二,通過支持多語言互通,助力民族團(tuán)結(jié),促進(jìn)全球語音語言互通,協(xié)助“一帶一路”建設(shè)。在這個(gè)過程中,我們很好支撐了北京冬奧會和冬殘奧會、進(jìn)博會、博鰲論壇等國家重大活動。
第三,我們一直強(qiáng)調(diào)自主可控,本項(xiàng)目整個(gè)構(gòu)建了自主可控的多語種智能語音技術(shù),以及全球的產(chǎn)業(yè)生態(tài)。
第四,我們認(rèn)為技術(shù)也要有溫度,所以本項(xiàng)目里面的相關(guān)技術(shù)也持續(xù)助力公益,關(guān)注關(guān)愛我們的弱勢群體和特殊人群。
心智觀察所:我稍微補(bǔ)充問一下,請問此項(xiàng)目的發(fā)起時(shí)間大概是什么時(shí)候?訊飛雖然是第一完成單位,但獲獎團(tuán)隊(duì)不止是訊飛這一家。請問獲獎團(tuán)隊(duì)的構(gòu)成如何?
劉聰:這個(gè)項(xiàng)目開始時(shí)間大概是在2012年左右,至今差不多是一個(gè)十年左右的周期。
除了訊飛作為第一單位牽頭,過去十年里在該項(xiàng)目上與我們有緊密合作的還有一些科研機(jī)構(gòu),如中國科學(xué)技術(shù)大學(xué)、清華大學(xué),訊飛與這兩所高校都有聯(lián)合共建的實(shí)驗(yàn)室;還有產(chǎn)業(yè)鏈上的相關(guān)單位,如華為終端有限公司、中移(杭州)信息技術(shù)有限公司、訊飛醫(yī)療、訊飛智元等。
心智觀察所:語音識別研究當(dāng)中有一個(gè)非常有挑戰(zhàn)的問題名叫雞尾酒會效應(yīng),請問訊飛是怎么突破這個(gè)難題的?然后,能否用一些比較通俗的比喻來向公眾解釋一下其中的原理。
劉聰:雞尾酒會是語音領(lǐng)域一個(gè)非常具有挑戰(zhàn)性的難題,討論的是在復(fù)雜環(huán)境下分辨聲音種類的問題。人的聽覺系統(tǒng)非常強(qiáng)大,例如你如果參加一個(gè)雞尾酒會的話,周圍非常吵鬧,酒會里有非常多的噪聲、談話聲、音樂聲以及酒杯碰撞的聲音。此時(shí),如果你想聽清楚誰在和你說話,你會將你的聽力系統(tǒng)集中過去,在周圍很吵的環(huán)境下專注于某一個(gè)特別定向的人發(fā)出的聲音,這是人類所具備的一個(gè)能力。
在我們做語音識別、語音合成技術(shù)時(shí),若要衡量語音識別系統(tǒng)的優(yōu)劣,就要跟人的水平去做對比。在雞尾酒會難題里,由于噪聲很多,所以對機(jī)器來說進(jìn)行精準(zhǔn)的語音識別是非常難的。我從學(xué)生時(shí)代起就在研究通過單點(diǎn)技術(shù)來降噪,此后也嘗試過通過多麥克風(fēng)陣列來提升整個(gè)前端的效果。雖然做了很多的工作,但是都只是在循序漸進(jìn),很難徹底解決這樣的問題。
此次獲得國獎的項(xiàng)目中第一個(gè)創(chuàng)新點(diǎn)——復(fù)雜語音信號解耦建模關(guān)鍵技術(shù)突破,其中有兩項(xiàng)技術(shù)能夠比較好地解決雞尾酒會問題。
我們在降噪里面的一個(gè)關(guān)鍵問題是要把語音里面的人聲和非人聲解構(gòu)出來,這就叫解耦。對語音來說非常困難,因?yàn)檎Z音是一個(gè)一維信號。在這個(gè)一維信號當(dāng)中包含了很多的信息,如人聲、噪聲等。甚至如果再進(jìn)一步細(xì)化,可能還有人聲里面的說話人聲音,及其音色、內(nèi)容、性別等信息。
為了解決這個(gè)問題,我們首先基于深度學(xué)習(xí)的框架,針對性地對語音里每一個(gè)人的每一種屬性做了針對性的建模。建模之后,我們就可以將剛才所說的噪聲、人聲的各類屬性比較清楚地顯示出來。通俗來講,我們可以更加精細(xì)地把控語音里面原來混雜在一起的、各種各樣的屬性。此后,我們就可以更好地對噪聲做分離處理,也可以知道語音里的聲音是跟說話人還是跟噪聲的聲音更接近。
同時(shí),如果我們用聲學(xué)前端多麥克風(fēng)陣列的多通道信號來采集語音的話,還可以對這個(gè)信號的時(shí)間、空間等屬性進(jìn)行分離。
-
本文僅代表作者個(gè)人觀點(diǎn)。
- 責(zé)任編輯: 武守哲 
-
歐盟港停滿中國車?“產(chǎn)能過剩”不背鍋
2024-07-26 14:51 心智觀察所視頻 -
統(tǒng)一生態(tài):鴻蒙如何踩著諾基亞和三星的“尸體”前進(jìn)
2024-07-26 14:22 心智觀察所視頻 -
專稿|“藍(lán)屏網(wǎng)災(zāi)”暴露三大悖論,“純血鴻蒙”另辟蹊徑
2024-07-25 15:01 心智觀察所 -
打破認(rèn)知局限!我國科學(xué)家研發(fā)出這一新型材料
2024-07-25 09:39 科技前沿 -
歐盟的反補(bǔ)貼調(diào)查,到底圖中國啥?
2024-07-24 13:56 心智觀察所視頻 -
鴻蒙系統(tǒng)與安卓“割席”,未來勝算幾何?
2024-07-24 13:41 心智觀察所視頻 -
“慢就是快”的啟示:中國無人駕駛憑什么后來居上?
2024-07-24 09:49 心智觀察所 -
“7月24日至25日地球可能出現(xiàn)地磁暴過程”
2024-07-23 21:54 天文 -
我國科學(xué)家在月壤中首次發(fā)現(xiàn)分子水
2024-07-23 18:19 嫦娥奔月 -
新一代載人火箭三級液氫液氧發(fā)動機(jī)長程高模試驗(yàn)成功
2024-07-23 10:17 航空航天 -
國內(nèi)最大、世界第二!可用于航空航天等領(lǐng)域大型核心零部件的加工處理
2024-07-20 22:18 中國精造 -
意義重大!中國電力體系的壯闊藍(lán)圖,正在逐步清晰
2024-07-19 13:44 電力改革 -
“中國沒有,國際也沒有,但不意味中國科學(xué)家不能做出來”
2024-07-19 08:11 科技前沿 -
我國團(tuán)隊(duì)研發(fā)出太陽能動力微型無人機(jī)
2024-07-19 07:22 科技前沿 -
重大突破!我國科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體
2024-07-18 20:45 科技前沿 -
我國科學(xué)家為“尼安德特人被現(xiàn)代人所同化”提供有力遺傳學(xué)證據(jù)
2024-07-18 15:11 科技前沿 -
Open RAN之死:華為中興不戰(zhàn)而勝
2024-07-18 10:27 華為 -
手機(jī)直連衛(wèi)星,中國星鏈何時(shí)能登場?
2024-07-18 08:33 -
“設(shè)計(jì)速度400公里每小時(shí),試驗(yàn)臺速度達(dá)600公里每小時(shí)”
2024-07-18 07:13 中國精造
相關(guān)推薦 -
最新聞 Hot
-
被逼急了,格陵蘭島總理:是時(shí)候獨(dú)立了
-
美媒直呼:啥都能威脅國家安全,美國完全走偏了
-
“到2030年,中國本土數(shù)學(xué)家將能引領(lǐng)世界”
-
密謀推翻馬爾代夫總統(tǒng)?印度回應(yīng)
-
域外調(diào)查惹惱國際奧委會,“2034鹽湖城冬奧會有點(diǎn)懸”
-
欲爭奪歐洲最大電動車市場,但英國國內(nèi)阻力不小
-
土耳其喊話歐盟:他不干,我干
-
“沒想到拜登竟會如此對待盟友!”
-
司機(jī)留信曝光:同胞們醒醒吧,美國快病死了!
-
特朗普炮轟:英國犯下了大錯(cuò)!
-
盧卡申科:計(jì)劃訪華,事關(guān)未來
-
特朗普“封口費(fèi)”案將于1月10日宣判,“但不會入獄”
-
“美國沒能改變中國”,布林肯一聽急了…
-
事關(guān)中國FK-3,塞爾維亞:這是一個(gè)“里程碑”
-
“中國真出手怎么辦?企業(yè)緊張研判…”
-
以己度人?“中方為了談判籌碼”
-