亚洲最大AV资源站无码AV网址,97精品伊人久久久大香线蕉,另类国产精品制服丝袜

APP下載

掃一掃

下載觀察者APP

繼DeepSeek后，阿里云通義千問(wèn)也追上OpenAI
- 連政guanchazhewanxgun
分享到：

2025-02-05 15:18:55 字號(hào)：A- A A+ 來(lái)源：觀察者網(wǎng)

中國(guó)不僅有DeepSeek，還有通義千問(wèn)。

阿里云通義團(tuán)隊(duì)于大年初一發(fā)布旗艦?zāi)Ｐ汀癚wen2.5-Max”，已成為繼深度求索（DeepSeek）后，第二家可以比肩美國(guó)OpenAI公司o1系列的中國(guó)大語(yǔ)言模型。

近日，三方基準(zhǔn)測(cè)試平臺(tái)LMArena的大語(yǔ)言模型盲測(cè)榜單（“ChatBot Arena LLM”）最新排名顯示，“Qwen2.5-Max”以1332分排總榜第7名，超過(guò)了深度求索的“DeepSeek-V3”以及OpenAI的“o1-mini”。而在數(shù)學(xué)和編程方面，“Qwen2.5-Max”則排名第1，在Hard prompts方面排名第2。

“ChatBot Arena LLM”榜單由美國(guó)加州大學(xué)伯利克分校天空計(jì)算實(shí)驗(yàn)室與LMArena聯(lián)合開發(fā)，通過(guò)用戶盲測(cè)的方式，覆蓋了對(duì)話、代碼、圖文生成、網(wǎng)頁(yè)開發(fā)等多維度能力評(píng)估，最終基于260萬(wàn)票結(jié)果反映出197個(gè)模型在真實(shí)體驗(yàn)下的排名情況，也是業(yè)內(nèi)公認(rèn)的權(quán)威榜單。

該榜單最新的更新時(shí)間為當(dāng)?shù)貢r(shí)間的2月2日，其中OpenAI的多個(gè)版本模型占據(jù)高位，比如第3位的“ChatGPT-4o”，同時(shí)還有谷歌的“Gemini-2.0”、xAI的“Grok-2”等，但這些模型均為閉源模型。

而在開源模型方面，“DeepSeek-R1”一騎絕塵，與“ChatGPT-4o-latest”并列榜單第3，緊隨其后的就是排名第7的阿里云通義“Qwen-max-2025-01-25”（即Qwen2.5-Max），“DeepSeek-V3”和中國(guó)智譜模型“GLM-4-Plus-0111”則分別排名第8、第9，而階躍星辰的“Step-2-16K-Exp”模型則與“o1-Mini”并列第10。榜單前10名中有5個(gè)中國(guó)大語(yǔ)言模型，也體現(xiàn)出中國(guó)人工智能團(tuán)隊(duì)在全球范圍內(nèi)的強(qiáng)技術(shù)競(jìng)爭(zhēng)力。

去年6月、9月，阿里云通義模型也曾兩度登頂全球最強(qiáng)開源模型的寶座，但由于未能追平超越閉源模型，討論熱度不及12月的DeepSeek-V3。今年1月29日凌晨1時(shí)，阿里云通義團(tuán)隊(duì)正式對(duì)外發(fā)布“Qwen2.5-Max”，該模型采用超大規(guī)?；旌蠈＜遥∕oE, Mixture of Experts）架構(gòu)，訓(xùn)練數(shù)據(jù)超過(guò)20萬(wàn)億tokens，并在知識(shí)（測(cè)試大學(xué)水平知識(shí)的MMLU-Pro）、編程（LiveCodeBench）、全面評(píng)估綜合能力的（LiveBench）以及人類偏好對(duì)齊（Arena-Hard）等主流權(quán)威基準(zhǔn)測(cè)試上，展現(xiàn)出全球領(lǐng)先的模型性能。

值得注意的是，“Arena-Hard”項(xiàng)主要測(cè)試模型在復(fù)雜指令理解和多輪對(duì)話中的表現(xiàn)，涵蓋了各種領(lǐng)域的知識(shí)和任務(wù)，并且打分的時(shí)候要嚴(yán)格對(duì)齊人類偏好。其中，對(duì)游戲開發(fā)、數(shù)學(xué)證明等專業(yè)項(xiàng)會(huì)給予較高分?jǐn)?shù)，而對(duì)類似全球餐廳推薦、送禮創(chuàng)意等答案會(huì)出現(xiàn)模棱兩可情況的問(wèn)題給予較低權(quán)重，“評(píng)委”則通常也由國(guó)外模型擔(dān)當(dāng)。而這種情況下，“Qwen2.5-Max”在該基準(zhǔn)測(cè)試中仍能夠迅速分析問(wèn)題，整合相關(guān)知識(shí)，給出全面且準(zhǔn)確的回答，最終以89.4分超越全部對(duì)比模型（DeepSeek-V3、Llama-3.1-405B-Inst、GPT-4o-0806、Claude-3.5-Sonnet-1022）。

據(jù)阿里云稱，由于無(wú)法訪問(wèn)“GPT-4o”和“Claude-3.5-Sonnet”等閉源模型的基座模型，通義團(tuán)隊(duì)將“Qwen2.5-Max”與目前領(lǐng)先的開源MoE模型“DeepSeek V3”、最大的開源稠密模型“Llama-3.1-405B”，以及同樣位列開源稠密模型前列的“Qwen2.5-72B”進(jìn)行了對(duì)比。在包括MMLU等所有11項(xiàng)基準(zhǔn)測(cè)試中，Qwen2.5-Max全部超越了對(duì)比模型。

對(duì)此，ChatBot Arena官方給出評(píng)價(jià)：“（Qwen2.5-Max）在多個(gè)領(lǐng)域表現(xiàn)強(qiáng)勁，特別是專業(yè)技術(shù)向的（編程、數(shù)學(xué)、硬提示等）?！?

本文系觀察者網(wǎng)獨(dú)家稿件，未經(jīng)授權(quán)，不得轉(zhuǎn)載。
|

舉報(bào)
- 違反法律法規(guī)
- 垃圾信息、廣告
- 色情、淫穢信息
- 人身攻擊
- 謠言、不實(shí)信息
- 冒充，冒用信息
- 破壞社區(qū)秩序
- 其他
- 涉未成年人有害信息
觀察者網(wǎng)舉報(bào)制度規(guī)范
確定取消
標(biāo)簽
- 責(zé)任編輯: 連政
- 美國(guó)郵政暫停接收來(lái)自中國(guó)內(nèi)地和香港的入境包裹
  
  2025-02-05 14:44 觀網(wǎng)財(cái)經(jīng)-海外
- 華為董事長(zhǎng)：去年?duì)I收超8600億
  
  2025-02-05 14:03 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 中國(guó)七大云廠商集中上線DeepSeek
  
  2025-02-05 11:28 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- A股deepseek概念掀漲停潮，機(jī)器人板塊走強(qiáng)
  
  2025-02-05 10:56 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- “硅谷有種常見(jiàn)病，認(rèn)為圈外所有創(chuàng)新都是作弊得來(lái)的”
  
  2025-02-02 21:01 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- OpenAI新模型價(jià)格驟降，整體性價(jià)比未能超越DeepSeek R1
  
  2025-02-02 16:32 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 華為和DeepSeek聯(lián)手，硅基流動(dòng)首發(fā)被擠爆
  
  2025-02-01 18:23 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 英特爾也加入了：針對(duì)DeepSeek進(jìn)行深度優(yōu)化
  
  2025-02-01 15:21 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 韓國(guó)股市補(bǔ)跌：內(nèi)存芯片巨頭暴跌10%
  
  2025-02-01 14:28 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 2024年末銀行理財(cái)支持實(shí)體經(jīng)濟(jì)資金規(guī)模超20萬(wàn)億元
  
  2025-02-01 13:27 金融觀察
- 蘋果折疊屏要來(lái)了？庫(kù)克稱手機(jī)創(chuàng)新遠(yuǎn)未結(jié)束，還提到DeepSeek
  
  2025-02-01 12:01 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 吳清發(fā)聲
  
  2025-02-01 09:16 金融觀察
- 蘋果最賺錢的一個(gè)季度，在華收入?yún)s遭滑鐵盧
  
  2025-01-31 10:56
- 星巴克第一財(cái)季同店銷售下滑4%，中國(guó)同店銷售下降6%
  
  2025-01-29 13:40 觀網(wǎng)財(cái)經(jīng)-消費(fèi)
- 英國(guó)監(jiān)管機(jī)構(gòu)考慮調(diào)查亞馬遜和微軟云服務(wù)
  
  2025-01-29 13:34 觀網(wǎng)財(cái)經(jīng)-海外
- 高盛警告：避險(xiǎn)基金已開始撤離對(duì)美國(guó)科技股的押注
  
  2025-01-29 12:43 觀網(wǎng)財(cái)經(jīng)-海外
- 阿里云發(fā)布通義千問(wèn)旗艦版模型Qwen2.5-Max
  
  2025-01-29 10:54 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 美國(guó)科技股收復(fù)部分失地，昨夜中國(guó)資產(chǎn)大漲
  
  2025-01-29 10:53 觀網(wǎng)財(cái)經(jīng)-海外
- 去年凈虧118億美元，波音放棄制定2025年財(cái)務(wù)目標(biāo)
  
  2025-01-29 10:44
- DeepSeek掀翻美股，憑什么？
  
  2025-01-28 18:44
搜索

   觀察者頭條查看全部

馬斯克靠這6張娃娃臉發(fā)動(dòng)“閃電戰(zhàn)”，美國(guó)嘩然評(píng)論 180

特朗普拋出震撼發(fā)言：美國(guó)將接管加沙評(píng)論 439

這時(shí)候，她對(duì)華態(tài)度“軟”了評(píng)論 190

“中方反擊較為克制，留了余地” 評(píng)論 188

2月10日起，對(duì)原產(chǎn)于美國(guó)的部分進(jìn)口商品加征關(guān)稅評(píng)論 295

   風(fēng)聞 · 24小時(shí)最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

繼DeepSeek后，阿里云通義千問(wèn)也追上OpenAI

美國(guó)郵政暫停接收來(lái)自中國(guó)內(nèi)地和香港的入境包裹

華為董事長(zhǎng)：去年?duì)I收超8600億

中國(guó)七大云廠商集中上線DeepSeek

A股deepseek概念掀漲停潮，機(jī)器人板塊走強(qiáng)

“硅谷有種常見(jiàn)病，認(rèn)為圈外所有創(chuàng)新都是作弊得來(lái)的”

OpenAI新模型價(jià)格驟降，整體性價(jià)比未能超越DeepSeek R1

華為和DeepSeek聯(lián)手，硅基流動(dòng)首發(fā)被擠爆

英特爾也加入了：針對(duì)DeepSeek進(jìn)行深度優(yōu)化

韓國(guó)股市補(bǔ)跌：內(nèi)存芯片巨頭暴跌10%

2024年末銀行理財(cái)支持實(shí)體經(jīng)濟(jì)資金規(guī)模超20萬(wàn)億元

蘋果折疊屏要來(lái)了？庫(kù)克稱手機(jī)創(chuàng)新遠(yuǎn)未結(jié)束，還提到DeepSeek

吳清發(fā)聲

蘋果最賺錢的一個(gè)季度，在華收入?yún)s遭滑鐵盧

星巴克第一財(cái)季同店銷售下滑4%，中國(guó)同店銷售下降6%

英國(guó)監(jiān)管機(jī)構(gòu)考慮調(diào)查亞馬遜和微軟云服務(wù)

高盛警告：避險(xiǎn)基金已開始撤離對(duì)美國(guó)科技股的押注

阿里云發(fā)布通義千問(wèn)旗艦版模型Qwen2.5-Max

美國(guó)科技股收復(fù)部分失地，昨夜中國(guó)資產(chǎn)大漲

去年凈虧118億美元，波音放棄制定2025年財(cái)務(wù)目標(biāo)

DeepSeek掀翻美股，憑什么？

“中方反擊較為克制，留了余地”

“反美聯(lián)盟正在形成！他拔槍就射，極其危險(xiǎn)”

要起訴DeepSeek？他回應(yīng)了

賬對(duì)不上了…

普京：要不了多久，歐洲會(huì)繼續(xù)對(duì)特朗普“搖尾巴”

墜毀“黑鷹”女飛行員曾任拜登軍事社交助理，飛行時(shí)長(zhǎng)450小時(shí)

特朗普承認(rèn)：關(guān)稅也許會(huì)讓美國(guó)人“痛苦”

“史上最愚蠢的貿(mào)易戰(zhàn)！”

加拿大群情激奮：報(bào)復(fù)紅州，報(bào)復(fù)特斯拉！

美國(guó)一客機(jī)發(fā)動(dòng)機(jī)起火，乘客被緊急疏散

要被特朗普關(guān)稅大棒掄到，歐盟這時(shí)候想到中國(guó)了？

“霸榜全球140個(gè)市場(chǎng)”，拉新最多的是…

他罕見(jiàn)“認(rèn)錯(cuò)”：在這方面，我們一直站在歷史錯(cuò)誤一邊

“政治清洗”？數(shù)千名FBI特工被“拉清單”

他寫的這篇小作文，竟是英偉達(dá)市值蒸發(fā)6000億美元的重要催化劑

他倆首會(huì)面，“談了DeepSeek和AI芯片出口”

繼DeepSeek后，阿里云通義千問(wèn)也追上OpenAI

繼DeepSeek后，阿里云通義千問(wèn)也追上OpenAI