-
繼DeepSeek后,阿里云通義千問(wèn)也追上OpenAI
-
連政guanchazhewanxgun
中國(guó)不僅有DeepSeek,還有通義千問(wèn)。
阿里云通義團(tuán)隊(duì)于大年初一發(fā)布旗艦?zāi)P汀癚wen2.5-Max”,已成為繼深度求索(DeepSeek)后,第二家可以比肩美國(guó)OpenAI公司o1系列的中國(guó)大語(yǔ)言模型。
近日,三方基準(zhǔn)測(cè)試平臺(tái)LMArena的大語(yǔ)言模型盲測(cè)榜單(“ChatBot Arena LLM”)最新排名顯示,“Qwen2.5-Max”以1332分排總榜第7名,超過(guò)了深度求索的“DeepSeek-V3”以及OpenAI的“o1-mini”。而在數(shù)學(xué)和編程方面,“Qwen2.5-Max”則排名第1,在Hard prompts方面排名第2。
“ChatBot Arena LLM”榜單由美國(guó)加州大學(xué)伯利克分校天空計(jì)算實(shí)驗(yàn)室與LMArena聯(lián)合開發(fā),通過(guò)用戶盲測(cè)的方式,覆蓋了對(duì)話、代碼、圖文生成、網(wǎng)頁(yè)開發(fā)等多維度能力評(píng)估,最終基于260萬(wàn)票結(jié)果反映出197個(gè)模型在真實(shí)體驗(yàn)下的排名情況,也是業(yè)內(nèi)公認(rèn)的權(quán)威榜單。
該榜單最新的更新時(shí)間為當(dāng)?shù)貢r(shí)間的2月2日,其中OpenAI的多個(gè)版本模型占據(jù)高位,比如第3位的“ChatGPT-4o”,同時(shí)還有谷歌的“Gemini-2.0”、xAI的“Grok-2”等,但這些模型均為閉源模型。
而在開源模型方面,“DeepSeek-R1”一騎絕塵,與“ChatGPT-4o-latest”并列榜單第3,緊隨其后的就是排名第7的阿里云通義“Qwen-max-2025-01-25”(即Qwen2.5-Max),“DeepSeek-V3”和中國(guó)智譜模型“GLM-4-Plus-0111”則分別排名第8、第9,而階躍星辰的“Step-2-16K-Exp”模型則與“o1-Mini”并列第10。榜單前10名中有5個(gè)中國(guó)大語(yǔ)言模型,也體現(xiàn)出中國(guó)人工智能團(tuán)隊(duì)在全球范圍內(nèi)的強(qiáng)技術(shù)競(jìng)爭(zhēng)力。
去年6月、9月,阿里云通義模型也曾兩度登頂全球最強(qiáng)開源模型的寶座,但由于未能追平超越閉源模型,討論熱度不及12月的DeepSeek-V3。今年1月29日凌晨1時(shí),阿里云通義團(tuán)隊(duì)正式對(duì)外發(fā)布“Qwen2.5-Max”,該模型采用超大規(guī)?;旌蠈<遥∕oE, Mixture of Experts)架構(gòu),訓(xùn)練數(shù)據(jù)超過(guò)20萬(wàn)億tokens,并在知識(shí)(測(cè)試大學(xué)水平知識(shí)的MMLU-Pro)、編程(LiveCodeBench)、全面評(píng)估綜合能力的(LiveBench)以及人類偏好對(duì)齊(Arena-Hard)等主流權(quán)威基準(zhǔn)測(cè)試上,展現(xiàn)出全球領(lǐng)先的模型性能。
值得注意的是,“Arena-Hard”項(xiàng)主要測(cè)試模型在復(fù)雜指令理解和多輪對(duì)話中的表現(xiàn),涵蓋了各種領(lǐng)域的知識(shí)和任務(wù),并且打分的時(shí)候要嚴(yán)格對(duì)齊人類偏好。其中,對(duì)游戲開發(fā)、數(shù)學(xué)證明等專業(yè)項(xiàng)會(huì)給予較高分?jǐn)?shù),而對(duì)類似全球餐廳推薦、送禮創(chuàng)意等答案會(huì)出現(xiàn)模棱兩可情況的問(wèn)題給予較低權(quán)重,“評(píng)委”則通常也由國(guó)外模型擔(dān)當(dāng)。而這種情況下,“Qwen2.5-Max”在該基準(zhǔn)測(cè)試中仍能夠迅速分析問(wèn)題,整合相關(guān)知識(shí),給出全面且準(zhǔn)確的回答,最終以89.4分超越全部對(duì)比模型(DeepSeek-V3、Llama-3.1-405B-Inst、GPT-4o-0806、Claude-3.5-Sonnet-1022)。
據(jù)阿里云稱,由于無(wú)法訪問(wèn)“GPT-4o”和“Claude-3.5-Sonnet”等閉源模型的基座模型,通義團(tuán)隊(duì)將“Qwen2.5-Max”與目前領(lǐng)先的開源MoE模型“DeepSeek V3”、最大的開源稠密模型“Llama-3.1-405B”,以及同樣位列開源稠密模型前列的“Qwen2.5-72B”進(jìn)行了對(duì)比。在包括MMLU等所有11項(xiàng)基準(zhǔn)測(cè)試中,Qwen2.5-Max全部超越了對(duì)比模型。
對(duì)此,ChatBot Arena官方給出評(píng)價(jià):“(Qwen2.5-Max)在多個(gè)領(lǐng)域表現(xiàn)強(qiáng)勁,特別是專業(yè)技術(shù)向的(編程、數(shù)學(xué)、硬提示等)?!?
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 連政 
-
美國(guó)郵政暫停接收來(lái)自中國(guó)內(nèi)地和香港的入境包裹
2025-02-05 14:44 觀網(wǎng)財(cái)經(jīng)-海外 -
華為董事長(zhǎng):去年?duì)I收超8600億
2025-02-05 14:03 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
中國(guó)七大云廠商集中上線DeepSeek
2025-02-05 11:28 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
A股deepseek概念掀漲停潮,機(jī)器人板塊走強(qiáng)
2025-02-05 10:56 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
華為和DeepSeek聯(lián)手,硅基流動(dòng)首發(fā)被擠爆
2025-02-01 18:23 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
英特爾也加入了:針對(duì)DeepSeek進(jìn)行深度優(yōu)化
2025-02-01 15:21 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
韓國(guó)股市補(bǔ)跌:內(nèi)存芯片巨頭暴跌10%
2025-02-01 14:28 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
2024年末銀行理財(cái)支持實(shí)體經(jīng)濟(jì)資金規(guī)模超20萬(wàn)億元
2025-02-01 13:27 金融觀察 -
蘋果最賺錢的一個(gè)季度,在華收入?yún)s遭滑鐵盧
2025-01-31 10:56 -
星巴克第一財(cái)季同店銷售下滑4%,中國(guó)同店銷售下降6%
2025-01-29 13:40 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
高盛警告:避險(xiǎn)基金已開始撤離對(duì)美國(guó)科技股的押注
2025-01-29 12:43 觀網(wǎng)財(cái)經(jīng)-海外 -
阿里云發(fā)布通義千問(wèn)旗艦版模型Qwen2.5-Max
2025-01-29 10:54 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
美國(guó)科技股收復(fù)部分失地,昨夜中國(guó)資產(chǎn)大漲
2025-01-29 10:53 觀網(wǎng)財(cái)經(jīng)-海外 -
去年凈虧118億美元,波音放棄制定2025年財(cái)務(wù)目標(biāo)
2025-01-29 10:44 -
DeepSeek掀翻美股,憑什么?
2025-01-28 18:44
相關(guān)推薦 -
-
馬斯克靠這6張娃娃臉發(fā)動(dòng)“閃電戰(zhàn)”,美國(guó)嘩然 評(píng)論 180特朗普拋出震撼發(fā)言:美國(guó)將接管加沙 評(píng)論 439這時(shí)候,她對(duì)華態(tài)度“軟”了 評(píng)論 190“中方反擊較為克制,留了余地” 評(píng)論 1882月10日起,對(duì)原產(chǎn)于美國(guó)的部分進(jìn)口商品加征關(guān)稅 評(píng)論 295最新聞 Hot
-
“中方反擊較為克制,留了余地”
-
“反美聯(lián)盟正在形成!他拔槍就射,極其危險(xiǎn)”
-
要起訴DeepSeek?他回應(yīng)了
-
賬對(duì)不上了…
-
普京:要不了多久,歐洲會(huì)繼續(xù)對(duì)特朗普“搖尾巴”
-
墜毀“黑鷹”女飛行員曾任拜登軍事社交助理,飛行時(shí)長(zhǎng)450小時(shí)
-
特朗普承認(rèn):關(guān)稅也許會(huì)讓美國(guó)人“痛苦”
-
“史上最愚蠢的貿(mào)易戰(zhàn)!”
-
加拿大群情激奮:報(bào)復(fù)紅州,報(bào)復(fù)特斯拉!
-
美國(guó)一客機(jī)發(fā)動(dòng)機(jī)起火,乘客被緊急疏散
-
要被特朗普關(guān)稅大棒掄到,歐盟這時(shí)候想到中國(guó)了?
-
“霸榜全球140個(gè)市場(chǎng)”,拉新最多的是…
-
他罕見(jiàn)“認(rèn)錯(cuò)”:在這方面,我們一直站在歷史錯(cuò)誤一邊
-
“政治清洗”?數(shù)千名FBI特工被“拉清單”
-
他寫的這篇小作文,竟是英偉達(dá)市值蒸發(fā)6000億美元的重要催化劑
-
他倆首會(huì)面,“談了DeepSeek和AI芯片出口”
快訊- 習(xí)近平同巴基斯坦總統(tǒng)扎爾達(dá)里會(huì)談
- 泰國(guó)總理抵京,開啟對(duì)華正式訪問(wèn)
- 英偉達(dá)出貨預(yù)期遭大幅下調(diào),國(guó)產(chǎn)算力集體支持DeepSeek
- 特朗普稱不急于同中國(guó)領(lǐng)導(dǎo)人通話,外交部回應(yīng)
- 辜振甫遺孀、嚴(yán)復(fù)孫女辜嚴(yán)倬云辭世
- 中方:希望歐盟能成為中方可以信任的合作伙伴
- 泰國(guó)對(duì)涉跨境電詐的緬甸地區(qū)斷網(wǎng)、斷電、斷油,中方回應(yīng)
- 美國(guó)蛋價(jià)暴漲之際,超4萬(wàn)美元100000枚雞蛋被偷
-