激情久久av一区av二区av三区,开心五月综合亚洲

APP下載

掃一掃

下載觀察者APP

多模態(tài)GPT-4被吹爆，但仍會“一本正經(jīng)胡說八道”
- 賀喜格
分享到：

2023-03-15 14:54:17 字號：A- A A+ 來源：觀察者網(wǎng)

最后更新: 2023-03-15 15:11:15

（文/賀喜格編輯/呂棟）

今年初以來，以AI大模型GPT3.5為基礎(chǔ)的聊天機器人ChatGPT引發(fā)大量關(guān)注，股市上相關(guān)概念遭到熱炒。正當(dāng)ChatGPT的熱度有所下降時，微軟投資的OpenAI又推出了GPT-4，號稱功能比GPT3.5更強大。

北京時間3月15日凌晨，OpenAI正式發(fā)布大型多模態(tài)模型GPT-4。據(jù)介紹，與ChatGPT只能接收文字不同，GPT-4能接收圖像和文本輸入來輸出文本內(nèi)容；擴寫能力得到增強，能處理超過2.5萬個單詞的文本；更具創(chuàng)造力，回答準確性顯著提高；能夠生成歌詞、創(chuàng)意文本，實現(xiàn)風(fēng)格變化；并且能夠處理更細微的指令。

“這是我們迄今為止功能最強大的模型！”O(jiān)penAI的高管和工程師在介紹視頻里直言：“GPT-4是世界第一款高體驗、強能力的先進AI系統(tǒng)，我們希望很快把它推向所有人?！?

新的大模型一經(jīng)發(fā)布，便受到網(wǎng)友們的熱捧。但仍然值得的一提的是，雖然GPT-4的功能進一步增強，但仍然不完全可靠。OpenAI坦言，GPT-4仍然會產(chǎn)生幻覺、生成錯誤答案，并出現(xiàn)推理錯誤。

自去年11月推出以來，ChatGPT已經(jīng)能夠根據(jù)用戶提示生成原創(chuàng)文章、故事和歌詞，但它也引發(fā)了一些擔(dān)憂。最近幾周，人工智能聊天機器人（包括來自微軟和谷歌的工具）因情緒反應(yīng)過激、犯事實錯誤和完全“幻覺”而受到指責(zé)。

GPT-4文字輸入限制提升至2.5萬個單詞

專業(yè)場景中接近人類水平

開發(fā)GPT大模型的OpenAI稱，GPT-4能接受圖像和文本輸入，輸出文本內(nèi)容，雖然在許多現(xiàn)實場景中的能力不如人類，但在各種專業(yè)和學(xué)術(shù)基準測試中已做到人類水平的表現(xiàn)。

之前人們使用的ChatGPT只有處理文本的能力，GPT-4開始接受圖像作為輸入介質(zhì)。比如，給它展示一張圖片，問它手套掉下午會發(fā)生什么，很快會得到“它會掉到木板上，并且球會被彈飛”的回答。

OpenAI還用一張“梗圖”演示了GPT-4的新功能。用戶提問：解釋下圖的笑點是什么，并對圖片中的每部分進行描述。GPT-4會分別對每張圖中的內(nèi)容進行描述，并指出這幅圖把一個大而過時的VGA接口插入一個小而現(xiàn)代的智能手機充電端口，是荒謬的。

GPT-4也能簡練指出圖片的違和之處。用戶提問：“這張圖片有什么不尋常之處”時，GPT-4簡練地回答出“一名男子正在行駛中的出租車車頂上使用熨衣板熨燙衣服”。

不僅是圖像理解，它還可以閱讀圖片形式的論文。通過幾張論文的圖片，GPT-4可以總結(jié)內(nèi)容，也可以對指定內(nèi)容展開解釋。

除了在文本輸入的基礎(chǔ)上進一步接受了圖像輸入外，GPT-4還升級成為了一個“學(xué)霸”，基準測試表現(xiàn)遠遠優(yōu)于現(xiàn)有模型。OpenAI表示，如果是隨意聊天，用戶可能不太能感受出GPT-3.5與GPT-4之間的區(qū)別。但當(dāng)任務(wù)的復(fù)雜性達到足夠的閾值時，GPT-4將明顯比GPT-3.5更可靠、更有創(chuàng)意，并且能夠處理更細微的指令。“在我們的內(nèi)部評估中，它產(chǎn)生正確回應(yīng)的可能性比GPT-3.5高40%?！?

根據(jù)測試，在“美國高考”SAT中，GPT-4的分數(shù)增加了150分，現(xiàn)在能拿到1600分中的1410分。它還通過了模擬律師考試，且分數(shù)在應(yīng)試者的前10%左右；相比之下，GPT-3.5的得分在倒數(shù)10%左右。

此外，GPT-4對于英語以外的語種支持也得到了大大的優(yōu)化。許多現(xiàn)有的機器學(xué)習(xí)基準測試都是用英語編寫的。為了初步了解GPT-4在其他語言中的性能，OpenAI使用Azure Translate將MMLU基準測試（一套涵蓋57個主題的14000個多項選擇題）翻譯成各種語言。在測試的26種語言中，有24種語言，GPT-4優(yōu)于GPT-3.5和其他大語言模型的英語語言性能。

在API（應(yīng)用程序編程接口）方面，GPT-4還開放了一個使用功能，允許修改“系統(tǒng)提示”。之前ChatGPT的回答總是冗長而平淡，這是因為系統(tǒng)提示中規(guī)定了“你只是一個語言模型……你的知識截止于2021年9月”。現(xiàn)在通過修改這句話，GPT-4就可以展現(xiàn)出更多樣的性格，比如扮演蘇格拉底。

OpenAI請GPT-4模型以蘇格拉底風(fēng)格教學(xué)，絕對不能給學(xué)生答案；相反地，還要不斷提出好問題幫助學(xué)生思考。ChatGPT果真循循善誘，以提問代替直接回答。取自O(shè)penAI官網(wǎng)

仍然不完全可靠

在體驗ChatGPT之時，不少用戶會發(fā)現(xiàn)ChatGPT時不時會“一本正經(jīng)地胡說八道”，而GPT-4盡管號稱功能更全面，但會出現(xiàn)幻覺、胡說八道的毛病還是沒能完全改掉。

OpenAI介紹，盡管功能已經(jīng)非常強大，但GPT-4仍與早期的GPT模型具有相似的局限性，其中最重要的一點是它仍然不完全可靠。GPT-4仍然會生成錯誤答案，并出現(xiàn)推理錯誤。

也就說，在GPT-4身上依然可以看到之前版本“一本正經(jīng)地胡說八道”的情形。OpenAI強調(diào)，仍然推薦在使用它的時候要附加諸如人工審查、或者附加上下文，甚至在高風(fēng)險情境中，要避免使用它。

不過OpenAI也提到，該系統(tǒng)已經(jīng)接受了六個月的安全培訓(xùn)，在內(nèi)部對抗性真實性評估中，GPT-4的得分比最新的GPT-3.5高：“響應(yīng)不允許內(nèi)容的請求的可能性降低了82%，產(chǎn)生真實事實的可能性提高了40%，優(yōu)于GPT-3.5?！?

網(wǎng)傳GPT-3和GPT-4參數(shù)對比圖，但此次OpenAI沒有給出GPT-4參數(shù)量

“它仍然存在缺陷，仍然有限，但它有明顯的改進。它比以前的模型更有創(chuàng)意，它的幻覺明顯減少，而且它的偏見也更少?！監(jiān)penAI公司CEO奧特曼在Twitter上稱，GPT-4是其模型“最有能力且最符合”人類價值觀和意圖的模型。

這也意味著，相較之前的模型來說，GPT-4雖然仍可能“一本正經(jīng)地胡說八道”，但頻率有所減小。

不過頻率的減小還是不能讓人們放松警惕。在GPT-4發(fā)布后，微軟營銷主管表示，“如果你在過去六周內(nèi)的任何時候使用過新的Bing預(yù)覽版，你就已經(jīng)提前了解了OpenAI最新模型的強大功能?！?

這似乎可以理解為，微軟的新必應(yīng)早就已經(jīng)用上了GPT-4。而結(jié)合前段時間對新必應(yīng)的爭議來看，已經(jīng)用上了GPT-4的新必應(yīng)還是出現(xiàn)了不少“發(fā)瘋”行為。

此外，與前一代一樣，GPT-4是基于2021年9月之前的數(shù)據(jù)訓(xùn)練的，所以GPT-4對于2021年9月之后發(fā)生的事件仍然缺乏有效理解，也不會從其經(jīng)驗中進行學(xué)習(xí)。OpenAI表示：“GPT-4仍有許多已知的局限性，我們正在努力解決，例如社會偏見、幻覺和對抗性提示?！?

本文系觀察者網(wǎng)獨家稿件，未經(jīng)授權(quán)，不得轉(zhuǎn)載。
|

舉報
- 違反法律法規(guī)
- 垃圾信息、廣告
- 色情、淫穢信息
- 人身攻擊
- 謠言、不實信息
- 冒充，冒用信息
- 破壞社區(qū)秩序
- 其他
- 涉未成年人有害信息
觀察者網(wǎng)舉報制度規(guī)范
確定取消
標簽 ChatGPT
- 責(zé)任編輯: 賀喜格
- “不后悔向小布什扔鞋，仍對美國感到憤怒”
  
  2023-03-15 14:32
- 毛利率超資生堂！毛戈平每賺100元對應(yīng)產(chǎn)品成本不到19元
  
  2023-03-15 14:29 觀網(wǎng)財經(jīng)-金融
- ?保銀行還是抗通脹？美聯(lián)儲陷入兩難
  
  2023-03-15 14:25 觀網(wǎng)財經(jīng)-宏觀
- ?提前跑路？硅谷銀行高管被爆套現(xiàn)8400萬美元
  
  2023-03-15 14:19 觀網(wǎng)財經(jīng)-金融
- 一未成年人直播打賞逾百萬元，消保委介入后平臺全額退回
  
  2023-03-15 13:13 觀網(wǎng)財經(jīng)-消費
- 網(wǎng)紅餐廳藍蛙后廚亂象：過期蔬果繼續(xù)用、有效期標簽隨意換…
  
  2023-03-15 11:57
- 兩年后在制程上反超臺積電、三星，英特爾能做到嗎？
  
  2023-03-15 11:36 觀網(wǎng)財經(jīng)-科創(chuàng)
- 拐點來了？前2月房地產(chǎn)開發(fā)投資降5.7%，較去年全年收窄4.3個百分點
  
  2023-03-15 10:15 觀網(wǎng)財經(jīng)-房產(chǎn)
- 穆迪下調(diào)美國整個銀行體系評級：穩(wěn)定→負面
  
  2023-03-15 10:08 觀網(wǎng)財經(jīng)-海外
- 產(chǎn)業(yè)園項目只有鋼架就慶祝封頂？當(dāng)?shù)鼗貞?yīng)
  
  2023-03-15 09:47 觀網(wǎng)財經(jīng)-房產(chǎn)
- 全國高中“C9聯(lián)盟”成立：不針對第三方
  
  2023-03-14 21:43
- 打“擦邊球”重啟超綱教學(xué)？學(xué)而思回應(yīng)：啟動內(nèi)部調(diào)查
  
  2023-03-14 20:24 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 新華社受權(quán)播發(fā)《政府工作報告》
  
  2023-03-14 19:11 觀網(wǎng)財經(jīng)-宏觀
- ?美國銀行危機，日本股市挨最狠的打
  
  2023-03-14 19:03 觀網(wǎng)財經(jīng)-金融
- 危機加深？百年投行瑞士信貸自曝“重大缺陷”
  
  2023-03-14 18:07 觀網(wǎng)財經(jīng)-海外
- 江蘇將舉辦大基金二期投資對接會
  
  2023-03-14 17:02 觀網(wǎng)財經(jīng)-科創(chuàng)
- 銀行危機時刻，瑞信自曝過去兩年財報程序有“重大缺陷”
  
  2023-03-14 16:59
- 上交所3月18日開展全面注冊制發(fā)行業(yè)務(wù)通關(guān)測試和交易業(yè)務(wù)全網(wǎng)測試
  
  2023-03-14 16:54 觀網(wǎng)財經(jīng)-金融
- A股半導(dǎo)體概念逆勢上漲，中芯國際漲超10%創(chuàng)一年新高
  
  2023-03-14 15:48 觀網(wǎng)財經(jīng)-科創(chuàng)
- “凌晨五點半，我把錢轉(zhuǎn)出來了！”
  
  2023-03-14 13:46 觀網(wǎng)財經(jīng)-海外
搜索

   觀察者頭條查看全部

134條！金磚通過《喀山宣言》，“將在聯(lián)合國分發(fā)” 評論 8

他拒談2000億英鎊奴隸制賠償：就不能往前看？評論 222

關(guān)鍵時期，歐盟單獨約談個別車企妄圖分化中方評論 355

“說印度是新的中國過于夸張，但‘去風(fēng)險’用得上” 評論 183

習(xí)近平在金磚國家領(lǐng)導(dǎo)人第十六次會晤上的講話（全文）評論 29

   風(fēng)聞 · 24小時最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

多模態(tài)GPT-4被吹爆，但仍會“一本正經(jīng)胡說八道”

“不后悔向小布什扔鞋，仍對美國感到憤怒”

毛利率超資生堂！毛戈平每賺100元對應(yīng)產(chǎn)品成本不到19元

?保銀行還是抗通脹？美聯(lián)儲陷入兩難

?提前跑路？硅谷銀行高管被爆套現(xiàn)8400萬美元

一未成年人直播打賞逾百萬元，消保委介入后平臺全額退回

網(wǎng)紅餐廳藍蛙后廚亂象：過期蔬果繼續(xù)用、有效期標簽隨意換…

兩年后在制程上反超臺積電、三星，英特爾能做到嗎？

拐點來了？前2月房地產(chǎn)開發(fā)投資降5.7%，較去年全年收窄4.3個百分點

穆迪下調(diào)美國整個銀行體系評級：穩(wěn)定→負面

產(chǎn)業(yè)園項目只有鋼架就慶祝封頂？當(dāng)?shù)鼗貞?yīng)

全國高中“C9聯(lián)盟”成立：不針對第三方

打“擦邊球”重啟超綱教學(xué)？學(xué)而思回應(yīng)：啟動內(nèi)部調(diào)查

新華社受權(quán)播發(fā)《政府工作報告》

?美國銀行危機，日本股市挨最狠的打

危機加深？百年投行瑞士信貸自曝“重大缺陷”

江蘇將舉辦大基金二期投資對接會

銀行危機時刻，瑞信自曝過去兩年財報程序有“重大缺陷”

上交所3月18日開展全面注冊制發(fā)行業(yè)務(wù)通關(guān)測試和交易業(yè)務(wù)全網(wǎng)測試

A股半導(dǎo)體概念逆勢上漲，中芯國際漲超10%創(chuàng)一年新高

“凌晨五點半，我把錢轉(zhuǎn)出來了！”

143條！金磚通過《喀山宣言》，“將在聯(lián)合國分發(fā)”

“我們愿意為中國做一切符合他們利益的事情”

“重要盟友”想加入金磚，北約回應(yīng)

果然，她開始攪局…

他拒談2000億英鎊奴隸制賠償：就不能往前看？

巴菲特：我誰也不支持

民主黨集體發(fā)聲：對，他是法西斯

談到金磚，她提醒美歐“保持警惕”

美司法部警告馬斯克：你可能犯法了

“這一方面，歐盟遠遠落后中美”

中國男子在菲律賓釣魚時被綁架，“與非法博彩業(yè)有關(guān)”

“正與中方商談租借月壤樣品，我覺得中國會答應(yīng)”

“說印度是新的中國過于夸張，但‘去風(fēng)險’用得上”

這一幕被逐幀記錄！

會議記錄曝光！在華美企茫然：不可能的任務(wù)

“把特朗普關(guān)起來！”說罷，拜登發(fā)覺不太對…

多模態(tài)GPT-4被吹爆，但仍會“一本正經(jīng)胡說八道”

多模態(tài)GPT-4被吹爆，但仍會“一本正經(jīng)胡說八道”