-
“起大早趕晚集”的谷歌大模型,這次真的“遙遙領(lǐng)先”了?
最早推出Transformer架構(gòu)的谷歌,一度在大模型競(jìng)賽中落后。好在隨著Gemini的不斷進(jìn)化,谷歌正在回到第一梯隊(duì)。
3月26日,Gemini 2.5 Pro上線,這個(gè)模型一經(jīng)推出就登頂各大榜單,在Chatbot Arena上較第二名高出整整39分!
Gemini 2.5 Pro是一款推理模型。谷歌表示,推理能力不僅僅指分類和預(yù)測(cè),而是指系統(tǒng)分析信息、得出邏輯結(jié)論、融入上下文和細(xì)微差別,以及做出明智決策的能力。
據(jù)悉Gemini 2.5 Pro 目前支持 100 萬 token 的上下文窗口,很快將推出200萬token的上下文窗口,繼承并發(fā)揚(yáng)了 Gemini 模型的優(yōu)勢(shì)——原生多模態(tài)能力和超長(zhǎng)上下文長(zhǎng)度。
這讓它能夠理解海量數(shù)據(jù)集,并處理來自多種信息源的復(fù)雜問題,包括文本、音頻、圖像、視頻,甚至完整的代碼倉(cāng)庫(kù)。
在Chatbot Arena(由加州大學(xué)伯克利分校 SkyLab 和 LMSYS 的研究者開發(fā),主要用于根據(jù)人類偏好評(píng)估大語言模型的性能)上,Gemini 2.5 Pro以橫掃所有類別的顯著優(yōu)勢(shì)排名第一,并且比緊隨其后的Grok-3整整高出了39分。
同時(shí)Gemini 2.5 Pro還獲得了創(chuàng)意寫作、指令遵循和長(zhǎng)查詢?nèi)箢I(lǐng)域唯一的冠軍。
此外,Gemini 2.5 Pro成功登頂了視覺競(jìng)技場(chǎng)(Vision Arena)排行榜榜首。
在網(wǎng)頁開發(fā)領(lǐng)域,作為首個(gè)實(shí)力媲美 Claude 3.7 Sonnet 的模型,Gemini 2.5 Pro成功獲得了網(wǎng)頁開發(fā)競(jìng)技場(chǎng)(WebDev Arena)的第二名。
不僅如此,Gemini 2.5 Pro在Humanity’s Last Exam(no tools),GPQA和 AIME 2025等數(shù)學(xué)和科學(xué)基準(zhǔn)評(píng)測(cè)中同樣表現(xiàn)卓越。
Humanity’s Last Exam (no tools)即 “人類的最后考試(無工具)”,這里的 “無工具” 指在進(jìn)行該考試時(shí),不允許使用外部工具,如搜索引擎、數(shù)據(jù)庫(kù)等。已往實(shí)驗(yàn)顯示,最先進(jìn)的 LLMs 在 HLE 上的準(zhǔn)確率普遍低于 10%,且存在信心與能力失衡、推理效率低等問題,表明當(dāng)前 LLM 的能力與人類專家在封閉式學(xué)術(shù)問題上的前沿能力之間的差距。在這一背景下,Gemini 2.5 Pro 18.8%的成績(jī)顯得非常突出。
據(jù)悉,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 應(yīng)用中,向 Gemini Advanced 用戶開放,并將在 Vertex AI 上推出。
而它會(huì)在未來幾周內(nèi)公布定價(jià)方案,用戶可以在更高使用配額下,將模型應(yīng)用于大規(guī)模生產(chǎn)環(huán)境。
有意思的是,最近國(guó)內(nèi)和國(guó)外兩大著名的“起大早趕晚集”選手都發(fā)布了最新大模型,含金量是否都能達(dá)到評(píng)測(cè)顯示的效果呢?
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
標(biāo)簽 Gemini- 責(zé)任編輯: 張睿佳 
-
胖東來,徹底“透明”
2025-03-26 14:26 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
補(bǔ)稅+罰款,印度要求三星支付44億
2025-03-26 14:04 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
騰訊元寶上線最新DeepSeekV3模型
2025-03-26 13:53 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
芯片巨頭互撕:高通在全球三大洲投訴ARM壟斷
2025-03-26 12:53 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
蘋果AI支持中文了,iPhone也能用5.5G了
2025-03-26 12:04 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
年輕的中國(guó)跨境賣家,瘋狂殺入“百萬美金俱樂部”
2025-03-26 10:25 觀網(wǎng)財(cái)經(jīng)-海外 -
阿里官宣:與寶馬達(dá)成合作
2025-03-26 10:24 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
-
霸王茶姬招股書公布:2024年GMV為295億元,門店數(shù)達(dá)6440家
2025-03-26 09:51 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
-
4億大單,新西蘭農(nóng)業(yè)巨頭加碼中國(guó)市場(chǎng)
2025-03-25 16:23 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
謝廣軍已辭職?百度內(nèi)部人士回應(yīng)
2025-03-25 16:03 大公司 -
小米配股融資超400億港元,雷軍曾稱“不缺錢才好融資”
2025-03-25 15:35 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
珍酒李渡歸母凈利大降43.1%,核心品牌銷量“四連跌”
2025-03-25 15:16 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
DeepSeek“偷偷”發(fā)布新版本,最新測(cè)評(píng)來了
2025-03-25 14:25 -
騰訊等巨頭攜手入股智元機(jī)器人
2025-03-25 13:29 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
相關(guān)推薦 -
“中方清單上的每一項(xiàng),都瞄準(zhǔn)要害” 評(píng)論 26“特朗普不代表所有美國(guó)人,請(qǐng)別報(bào)復(fù)我們州” 評(píng)論 252中柬云壤港聯(lián)合保障和訓(xùn)練中心正式掛牌運(yùn)行 評(píng)論 157美股蒸發(fā)超5萬億美元,“95年來最大政策失誤” 評(píng)論 360美國(guó)人瘋狂囤貨,“中國(guó)電視被買空” 評(píng)論 232最新聞 Hot
-
“中方清單上的每一項(xiàng),都瞄準(zhǔn)要害”
-
罕見!黨內(nèi)盟友與特朗普唱反調(diào):明年我們可能面臨“血洗”
-
“崇拜了美國(guó)這么多年,我們還能信什么?”
-
“特朗普不代表所有美國(guó)人,請(qǐng)別報(bào)復(fù)我們州”
-
中柬掛牌,洪瑪奈感謝中國(guó)
-
特朗普轉(zhuǎn)發(fā)“巴菲特支持特朗普經(jīng)濟(jì)政策”,巴菲特回應(yīng)了
-
演都不演了,特朗普顧問直說:阿根廷得結(jié)束這份中國(guó)協(xié)議,不然…
-
中柬云壤港聯(lián)合保障和訓(xùn)練中心正式掛牌運(yùn)行
-
這一重大科研裝置,成功部署!
-
美媒關(guān)注:辛辣回?fù)籼乩势贞P(guān)稅,中國(guó)媒體用上AI歌曲和短片
-
特朗普再要求降息,鮑威爾:關(guān)稅遠(yuǎn)超預(yù)期,再等等
-
美股蒸發(fā)超5萬億美元,“95年來最大政策失誤”
-
萬斯:歐洲最大威脅不是中俄
-
魯比奧辯解:美國(guó)需要回到制造業(yè)時(shí)代
-
在美烏克蘭人限期7日離境?美官方:發(fā)錯(cuò)了
-
美股“血流成河”,特朗普選擇…去打高爾夫球
-