-
小米大模型突然登頂一項(xiàng)測試,用了DeepSeek的方法
-
張廣凱13764468101
3月17日,小米官方透露,其大模型團(tuán)隊(duì)在音頻推理測試集MMAU榜單登頂,并強(qiáng)調(diào)“DeepSeek-R1的發(fā)布為我們在該項(xiàng)任務(wù)上的研究帶來了啟發(fā)”。
MMAU是一個(gè)側(cè)重考察音頻大模型理解和復(fù)雜推理能力的測試集,包含27種不同的任務(wù),一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本。
例如,其中一個(gè)任務(wù)是要求從一段10多秒的語音中,數(shù)出包含至少一個(gè)重讀音素的單詞數(shù)量;另一個(gè)任務(wù)是根據(jù)一段美劇《生活大爆炸》中的對話,解釋其中一句話為什么是諷刺。
這是一個(gè)難度較高的測試集,人類專家的測試準(zhǔn)確率為82.23%。而目前榜單上最強(qiáng)的大模型是谷歌Gemini 2.0 Flash,準(zhǔn)確率55.6%。
小米大模型則達(dá)到了64.5%的準(zhǔn)確率,較其它大模型有顯著提升。其參數(shù)量更是只有7B,是一個(gè)非常輕量化的模型。
不過,小米的大模型倒也不是完全自己研發(fā),而是基于開源的阿里通義大模型Qwen2-Audio-7B,并使用清華大學(xué)發(fā)布的 AVQA 數(shù)據(jù)集進(jìn)行微調(diào)。Qwen2-Audio-7B自身在這個(gè)測試集上的得分是49.2%。
其實(shí),相比于模型本身,小米這一成果的更大意義在于,證明了在音頻模型領(lǐng)域,DeepSeek-R1的Group Relative Policy Optimization (GRPO) 方法,同樣比監(jiān)督微調(diào)(SFT)效果要好得多。
小米方面專門用通俗的語言解釋了這個(gè)方法:
“打個(gè)比方來說,離線微調(diào)方法,如 SFT,有點(diǎn)像背題庫,你只能根據(jù)已有的題目和答案訓(xùn)練,但遇到新題可能不會做;而強(qiáng)化學(xué)習(xí)方法,如 GRPO,像老師在要求你多想幾個(gè)答案,然后老師告訴你哪一個(gè)答案好,讓你主動思考,激發(fā)出自身的能力,而不是被“填鴨式”教學(xué)。當(dāng)然,如果訓(xùn)練量足夠,比如有學(xué)生愿意花很多年的時(shí)間來死記硬背題庫,也許最終也能達(dá)到不錯(cuò)的效果,但效率太低,浪費(fèi)太多時(shí)間。而主動思考,更容易快速地達(dá)到舉一反三的效果。強(qiáng)化學(xué)習(xí)的實(shí)時(shí)反饋可能會幫助模型更快鎖定高質(zhì)量答案的分布區(qū)域,而離線方法需要遍歷整個(gè)可能性空間,效率要低得多?!?
此外,小米團(tuán)隊(duì)還發(fā)現(xiàn),如果讓模型像DeepSeek一樣,給出顯性的推理過程,最后的準(zhǔn)確率反而下降到61.1%,也就是說,顯式的思維鏈結(jié)果輸出可能并不利于模型的訓(xùn)練。這是相較于DeepSeek的一個(gè)新發(fā)現(xiàn)。
最后,小米方面也指出,盡管當(dāng)前準(zhǔn)確率已突破 64%,但距離人類專家 82% 的水平仍有差距,音頻大模型仍然遠(yuǎn)遠(yuǎn)落后于人類聽覺語言推理。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 張廣凱 
-
人工韌帶有望打破國外壟斷,投資人為何等不及國產(chǎn)替代?
2025-03-17 17:24 觀網(wǎng)財(cái)經(jīng)-健康 -
麒麟X90處理器曝光,華為首款PC級CPU來了?
2025-03-17 16:46 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
3GPP換屆,華為、vivo、中國移動、中國電信獲四個(gè)主席席位
2025-03-17 15:33 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
寧德時(shí)代正開發(fā)第二代鈉電池:性能已與磷酸鐵鋰電池接近
2025-03-17 13:50 大公司 -
韓國巨頭減產(chǎn)、美光停電,閃存芯片要漲價(jià)了
2025-03-17 13:14 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
寶馬宣布與華為達(dá)成合作,未來將深度集成華為HiCar
2025-03-17 12:31 華為 -
1688全面松綁“僅退款”
2025-03-17 11:52 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
京東外賣入駐商家已破30萬家,覆蓋全國126城
2025-03-17 10:59 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
3000億國補(bǔ)擴(kuò)容,滴灌到縣城
2025-03-17 09:57 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
華為申請MateRobot商標(biāo)
2025-03-17 09:50 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
蘋果計(jì)劃在AirPods上配備實(shí)時(shí)對話翻譯功能
2025-03-16 20:57 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
年化利率高達(dá)20倍!借貸寶被暫停運(yùn)營
2025-03-16 09:38 315維權(quán) -
土巴兔:未與火眼云達(dá)成實(shí)質(zhì)性合作
2025-03-16 09:16 315維權(quán) -
即將連虧3年,360用戶體驗(yàn)何時(shí)能提升?
2025-03-15 22:51 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
市場監(jiān)管總局發(fā)聲
2025-03-15 22:21 -
知情人士:偷個(gè)人信息的獲客公司每日處理100億條數(shù)據(jù)
2025-03-15 22:21 315維權(quán) -
最高年化利率近6000%!在評論區(qū)一不小心借到“高利貸”...
2025-03-15 21:39 315維權(quán) -
啄木鳥回應(yīng):確認(rèn)屬實(shí)將會對師傅進(jìn)行嚴(yán)格處罰
2025-03-15 21:20 315維權(quán)
相關(guān)推薦 -
-
美股蒸發(fā)超5萬億美元,“95年來最大政策失誤” 評論 360美國人瘋狂囤貨,“中國電視被買空” 評論 232最新聞 Hot
-
“中方清單上的每一項(xiàng),都瞄準(zhǔn)要害”
-
罕見!黨內(nèi)盟友與特朗普唱反調(diào):明年我們可能面臨“血洗”
-
“崇拜了美國這么多年,我們還能信什么?”
-
“特朗普不代表所有美國人,請別報(bào)復(fù)我們州”
-
中柬掛牌,洪瑪奈感謝中國
-
特朗普轉(zhuǎn)發(fā)“巴菲特支持特朗普經(jīng)濟(jì)政策”,巴菲特回應(yīng)了
-
演都不演了,特朗普顧問直說:阿根廷得結(jié)束這份中國協(xié)議,不然…
-
中柬云壤港聯(lián)合保障和訓(xùn)練中心正式掛牌運(yùn)行
-
這一重大科研裝置,成功部署!
-
美媒關(guān)注:辛辣回?fù)籼乩势贞P(guān)稅,中國媒體用上AI歌曲和短片
-
特朗普再要求降息,鮑威爾:關(guān)稅遠(yuǎn)超預(yù)期,再等等
-
美股蒸發(fā)超5萬億美元,“95年來最大政策失誤”
-
萬斯:歐洲最大威脅不是中俄
-
魯比奧辯解:美國需要回到制造業(yè)時(shí)代
-
在美烏克蘭人限期7日離境?美官方:發(fā)錯(cuò)了
-
美股“血流成河”,特朗普選擇…去打高爾夫球
-