-
與清華合作,支持22種中文方言的語音大模型來了!
最后更新: 2025-04-02 20:54:343月26日,一篇名為Dolphin —— 一款專為東方語言設(shè)計(jì)的語音大模型(Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages)的論文在arXiv (康奈爾大學(xué)圖書館運(yùn)營的一個開放獲取的預(yù)印本平臺)上發(fā)表。
目前,Dolphin 的base與small版模型與推理代碼已經(jīng)全面開源。
據(jù)悉,該項(xiàng)目來自海天瑞聲和清華大學(xué)電子工程系語音與音頻技術(shù)實(shí)驗(yàn)室的合作,兩者共同推出了支持40個東方語種,以及22種中文方言(含普通話)的語音識別系統(tǒng)。
在數(shù)據(jù)方面,該系統(tǒng)的訓(xùn)練數(shù)據(jù)總時長21.2萬小時,其中海天瑞聲高質(zhì)量專有數(shù)據(jù)13.8萬小時,開源數(shù)據(jù)7.4萬小時。
性能層面,通過與OpenAI推出的Whisper在同等尺寸模型的比較,根據(jù)參考三個多語言數(shù)據(jù)集(海天瑞聲、Fleurs、CommonVoice)的平均值得出:
Dolphin base版模型的WER(詞錯率)為 31.8%,而 Whisper large-v3 版模型的詞錯率為 52.3%。從這個角度看,盡管dolphin基礎(chǔ)版模型的規(guī)模不到 Whisper large-v3 版模型的十分之一,但在針對這些語言進(jìn)行評估時,其詞錯率與 Whisper large-v3 模型相比相對降低了 39%,這凸顯了dolphin的性能優(yōu)勢。
具體技術(shù)上,Dolphin網(wǎng)絡(luò)結(jié)構(gòu)基于CTC-Attention架構(gòu),E-Branchformer編碼器和Transformer解碼器,并引入了4倍下采樣層。
CTC-Attention架構(gòu)能夠提升模型的識別準(zhǔn)確性和效率;Branchformer編碼器采用并行分支結(jié)構(gòu),能夠更有效地捕捉輸入語音信號的局部和全局依賴關(guān)系,為模型提供了更豐富的特征表示;Transformer解碼器確保系統(tǒng)能夠提供高質(zhì)量的文本輸出;4倍下采樣層可以減少輸入特征的序列長度,從而加速計(jì)算過程,同時保留關(guān)鍵的語音信息,確保模型的識別效果不受影響。
此外,Dolphin還引入了兩級語種標(biāo)簽系統(tǒng),第一個標(biāo)簽指定語種(例如<zh>、<ja>
),第二個標(biāo)簽指定地區(qū)(例如<CN>、<JP> )。 這種分層方法使模型能夠捕捉同一種語言內(nèi)不同方言和口音之間的差異,以及同一地區(qū)內(nèi)不同語言之間的相似性,從而提高了模型區(qū)分密切相關(guān)的方言的能力,并通過在語言和地區(qū)之間建立聯(lián)系增強(qiáng)泛化能力。
海天瑞聲表示,通過共享技術(shù)成果,希望能夠吸引更多的開發(fā)者和研究機(jī)構(gòu)參與到東方語言語音識別的研究中來,共同推動技術(shù)進(jìn)步。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 張睿佳 
-
增利不增收的青島啤酒,連續(xù)六年出現(xiàn)季節(jié)性虧損
2025-04-02 20:40 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
業(yè)績狂飆的老鋪黃金,股價(jià)卻即將承壓?
2025-04-02 20:03 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
AI拐點(diǎn)到來,大廠集體搶人
2025-04-02 19:49 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
個人電腦就能運(yùn)行,更便宜的Agent要來了
2025-04-02 18:18 -
完成”瘦身”后,美的置業(yè)保留業(yè)務(wù)營收、利潤雙雙增長
2025-04-02 18:12 觀網(wǎng)財(cái)經(jīng)-房產(chǎn) -
騰訊會議“崩了”?官方回應(yīng)
2025-04-02 17:47 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
售價(jià)超7000元,Meta想用眼鏡取代iPhone
2025-04-02 17:16 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
京東工業(yè),再度沖刺港股IPO
2025-04-02 17:04 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
內(nèi)地行業(yè)龍頭排隊(duì)融資,香港IPO募資額反超印度
2025-04-02 16:30 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
時隔50個交易日,A股兩市成交額再度跌破1萬億
2025-04-02 15:24 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
全球VR市場三連跌,蘋果Vision Pro單季出貨暴跌43%
2025-04-02 13:56 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
三星折疊機(jī)出貨暴跌33%,中國品牌集體大增,蘋果明年入局?
2025-04-02 13:39 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
京東官宣:達(dá)達(dá)員工逐步升至20薪
2025-04-02 13:35 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
豫園股份2024年報(bào)透視:輕資產(chǎn)轉(zhuǎn)型撬動市值潛力,文化出海錨定長期價(jià)值
2025-04-02 13:10 -
阿里收購兩氫一氧,無招回歸釘釘
2025-04-02 11:19 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
乘“AI東風(fēng)”,良信股份欲掘金智算中心配電藍(lán)海
2025-04-02 10:14 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
智能早報(bào)丨雷軍回應(yīng)SU7事故;宇樹再發(fā)新產(chǎn)品;蘋果遭11億巨額罰單
2025-04-02 08:41 產(chǎn)業(yè)萬象 -
中國成2024年歐盟汽車進(jìn)口最大來源國
2025-04-02 08:19 -
日賺十億的全球店王SKP或?qū)⒁字?/a>
2025-04-01 20:29 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
茶咖日報(bào)|瀾滄古茶今起停牌;鐘睒睒為云南茶葉發(fā)聲
2025-04-01 20:02 觀網(wǎng)財(cái)經(jīng)-消費(fèi)
相關(guān)推薦 -
日本這回要對美國咬緊牙關(guān)不松口了 評論 26“機(jī)智!中方出新招,進(jìn)一步堵住漏洞” 評論 114“誰都不想掛電話” ,美俄元首兩小時都聊了啥? 評論 144“中國提出需求,俄方愿保障:就差技術(shù)方案了” 評論 228最新聞 Hot
-
“機(jī)智!中方出新招,進(jìn)一步堵住漏洞”
-
“美國7年級學(xué)生相當(dāng)于中國3年級,中國在嘲笑我們”
-
魯比奧:美國想和平歐洲卻談戰(zhàn)爭,“世界顛倒了”
-
跟風(fēng)美國?日本也要下手
-
菲律賓總統(tǒng)馬科斯:愿與杜特爾特家族和解
-
“誰都不想掛電話” ,美俄元首兩小時都聊了啥?
-
雷蒙多焦慮:美國每天都要有“落后中國”的緊迫感
-
“中國提出需求,俄方愿保障:就差技術(shù)方案了”
-
講個笑話,這就是“全球最大的民主國家”…
-
“G6要告訴美國:要對華施壓,還要被你脅迫,臣妾做不到”
-
“比美國先進(jìn)20年,但中國稀土業(yè)要居安思?!?/a>
-
黃仁勛:全球一半AI人才都是中國人,根本阻擋不了
-
特朗普要查哈里斯
-
英法加譴責(zé)以色列:震驚!再不收手就制裁!
-
特朗普還是忍不住,暗示拜登“隱瞞癌癥病情”
-
“全國優(yōu)秀縣委書記”張永寧,任寧德市委書記
-