-
與清華合作,支持22種中文方言的語(yǔ)音大模型來(lái)了!
最后更新: 2025-04-02 20:54:343月26日,一篇名為Dolphin —— 一款專為東方語(yǔ)言設(shè)計(jì)的語(yǔ)音大模型(Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages)的論文在arXiv (康奈爾大學(xué)圖書(shū)館運(yùn)營(yíng)的一個(gè)開(kāi)放獲取的預(yù)印本平臺(tái))上發(fā)表。
目前,Dolphin 的base與small版模型與推理代碼已經(jīng)全面開(kāi)源。
據(jù)悉,該項(xiàng)目來(lái)自海天瑞聲和清華大學(xué)電子工程系語(yǔ)音與音頻技術(shù)實(shí)驗(yàn)室的合作,兩者共同推出了支持40個(gè)東方語(yǔ)種,以及22種中文方言(含普通話)的語(yǔ)音識(shí)別系統(tǒng)。
在數(shù)據(jù)方面,該系統(tǒng)的訓(xùn)練數(shù)據(jù)總時(shí)長(zhǎng)21.2萬(wàn)小時(shí),其中海天瑞聲高質(zhì)量專有數(shù)據(jù)13.8萬(wàn)小時(shí),開(kāi)源數(shù)據(jù)7.4萬(wàn)小時(shí)。
性能層面,通過(guò)與OpenAI推出的Whisper在同等尺寸模型的比較,根據(jù)參考三個(gè)多語(yǔ)言數(shù)據(jù)集(海天瑞聲、Fleurs、CommonVoice)的平均值得出:
Dolphin base版模型的WER(詞錯(cuò)率)為 31.8%,而 Whisper large-v3 版模型的詞錯(cuò)率為 52.3%。從這個(gè)角度看,盡管dolphin基礎(chǔ)版模型的規(guī)模不到 Whisper large-v3 版模型的十分之一,但在針對(duì)這些語(yǔ)言進(jìn)行評(píng)估時(shí),其詞錯(cuò)率與 Whisper large-v3 模型相比相對(duì)降低了 39%,這凸顯了dolphin的性能優(yōu)勢(shì)。
具體技術(shù)上,Dolphin網(wǎng)絡(luò)結(jié)構(gòu)基于CTC-Attention架構(gòu),E-Branchformer編碼器和Transformer解碼器,并引入了4倍下采樣層。
CTC-Attention架構(gòu)能夠提升模型的識(shí)別準(zhǔn)確性和效率;Branchformer編碼器采用并行分支結(jié)構(gòu),能夠更有效地捕捉輸入語(yǔ)音信號(hào)的局部和全局依賴關(guān)系,為模型提供了更豐富的特征表示;Transformer解碼器確保系統(tǒng)能夠提供高質(zhì)量的文本輸出;4倍下采樣層可以減少輸入特征的序列長(zhǎng)度,從而加速計(jì)算過(guò)程,同時(shí)保留關(guān)鍵的語(yǔ)音信息,確保模型的識(shí)別效果不受影響。
此外,Dolphin還引入了兩級(jí)語(yǔ)種標(biāo)簽系統(tǒng),第一個(gè)標(biāo)簽指定語(yǔ)種(例如<zh>、<ja>
),第二個(gè)標(biāo)簽指定地區(qū)(例如<CN>、<JP> )。 這種分層方法使模型能夠捕捉同一種語(yǔ)言內(nèi)不同方言和口音之間的差異,以及同一地區(qū)內(nèi)不同語(yǔ)言之間的相似性,從而提高了模型區(qū)分密切相關(guān)的方言的能力,并通過(guò)在語(yǔ)言和地區(qū)之間建立聯(lián)系增強(qiáng)泛化能力。
海天瑞聲表示,通過(guò)共享技術(shù)成果,希望能夠吸引更多的開(kāi)發(fā)者和研究機(jī)構(gòu)參與到東方語(yǔ)言語(yǔ)音識(shí)別的研究中來(lái),共同推動(dòng)技術(shù)進(jìn)步。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 張睿佳 
-
增利不增收的青島啤酒,連續(xù)六年出現(xiàn)季節(jié)性虧損
2025-04-02 20:40 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
業(yè)績(jī)狂飆的老鋪黃金,股價(jià)卻即將承壓?
2025-04-02 20:03 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
AI拐點(diǎn)到來(lái),大廠集體搶人
2025-04-02 19:49 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
個(gè)人電腦就能運(yùn)行,更便宜的Agent要來(lái)了
2025-04-02 18:18 -
-
騰訊會(huì)議“崩了”?官方回應(yīng)
2025-04-02 17:47 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
售價(jià)超7000元,Meta想用眼鏡取代iPhone
2025-04-02 17:16 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
京東工業(yè),再度沖刺港股IPO
2025-04-02 17:04 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
內(nèi)地行業(yè)龍頭排隊(duì)融資,香港IPO募資額反超印度
2025-04-02 16:30 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
時(shí)隔50個(gè)交易日,A股兩市成交額再度跌破1萬(wàn)億
2025-04-02 15:24 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
-
京東官宣:達(dá)達(dá)員工逐步升至20薪
2025-04-02 13:35 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
阿里收購(gòu)兩氫一氧,無(wú)招回歸釘釘
2025-04-02 11:19 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
乘“AI東風(fēng)”,良信股份欲掘金智算中心配電藍(lán)海
2025-04-02 10:14 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
中國(guó)成2024年歐盟汽車進(jìn)口最大來(lái)源國(guó)
2025-04-02 08:19 -
日賺十億的全球店王SKP或?qū)⒁字?/a>
2025-04-01 20:29 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
茶咖日?qǐng)?bào)|瀾滄古茶今起停牌;鐘睒睒為云南茶葉發(fā)聲
2025-04-01 20:02 觀網(wǎng)財(cái)經(jīng)-消費(fèi)
相關(guān)推薦 -
中柬云壤港聯(lián)合保障和訓(xùn)練中心正式掛牌運(yùn)行 評(píng)論 131美股蒸發(fā)超5萬(wàn)億美元,“95年來(lái)最大政策失誤” 評(píng)論 340美國(guó)人瘋狂囤貨,“中國(guó)電視被買空” 評(píng)論 221“特朗普白給,中國(guó)要贏得全世界了” 評(píng)論 176最新聞 Hot
-
中柬云壤港聯(lián)合保障和訓(xùn)練中心正式掛牌運(yùn)行
-
特朗普轉(zhuǎn)發(fā)“巴菲特支持特朗普經(jīng)濟(jì)政策”,巴菲特回應(yīng)了
-
演都不演了,特朗普顧問(wèn)直說(shuō):阿根廷得結(jié)束這份中國(guó)協(xié)議,不然…
-
這一重大科研裝置,成功部署!
-
美媒關(guān)注:辛辣回?fù)籼乩势贞P(guān)稅,中國(guó)媒體用上AI歌曲和短片
-
特朗普再要求降息,鮑威爾:關(guān)稅遠(yuǎn)超預(yù)期,再等等
-
美股蒸發(fā)超5萬(wàn)億美元,“95年來(lái)最大政策失誤”
-
萬(wàn)斯:歐洲最大威脅不是中俄
-
魯比奧辯解:美國(guó)需要回到制造業(yè)時(shí)代
-
在美烏克蘭人限期7日離境?美官方:發(fā)錯(cuò)了
-
美股“血流成河”,特朗普選擇…去打高爾夫球
-
魯比奧告訴北約:特朗普快對(duì)普京沒(méi)耐心了
-
美國(guó)人瘋狂囤貨,“中國(guó)電視被買空”
-
美股三大股指收盤(pán)暴跌,納指進(jìn)入熊市
-
美股開(kāi)盤(pán)重挫,特朗普:我的政策永不改變
-
90億美元還想不想要?哈佛被下“整改通牒”
-