免费看一级黃色大全,国产精品TV在线麻豆,性男女做视频观看网站

APP下載

掃一掃

下載觀察者APP

專訪《生成式人工智能》作者丁磊：中國大模型廠商趕超美國，關(guān)鍵在這里
- 呂棟lvdong@guancha.cn
分享到：

2023-07-26 14:47:29 字號：A- A A+ 來源：觀察者網(wǎng)

最后更新: 2024-05-08 23:15:24

觀察者網(wǎng)：您在新書《生成式人工智能》中提到，Transformer與ChatGPT模型的出現(xiàn)密切相關(guān)，已成為深度學(xué)習(xí)最亮眼的成果之一，但很多人不明白什么是Transformer，為什么Transformer這么重要？除了Transformer，催生ChatGPT這類大模型的關(guān)鍵技術(shù)還有哪些？

丁磊：提到Transformer，大家肯定首先想到的就是“transform”這個詞，也就是“轉(zhuǎn)換”的意思。而顧名思義，Transformer也就是“轉(zhuǎn)換器”的意思。為什么一個技術(shù)模型要叫“轉(zhuǎn)換器”呢？其實這也正是Transformer的核心，也就是它能實現(xiàn)的功能——從序列到序列。

序列到序列模型（sequence to sequence）是在2014年提出的。所謂序列，指的是文本數(shù)據(jù)、語音數(shù)據(jù)、視頻數(shù)據(jù)等一系列具有連續(xù)關(guān)系的數(shù)據(jù)。在序列到序列模型中，只要能編碼成序列，輸入和輸出的可以是任何形式的內(nèi)容。而序列編碼形式非常廣泛，我們?nèi)粘Ｗ龅拇蟛糠止ぷ鞫伎梢跃幋a成序列，因此這種模型可以解決很多問題。

2017年出現(xiàn)的Transformer模型，在序列到序列模型基礎(chǔ)上有兩大提升，分別是采用多頭注意力機(jī)制和引入位置編碼機(jī)制，能夠識別更復(fù)雜的語言情況，從而能夠處理更為復(fù)雜的任務(wù)。在Transformer模型中，能輸出或生成的內(nèi)容更加廣泛，包括文本、圖像、語音、視頻以及更廣義的內(nèi)容，例如它可以生成報告、策劃方案、代碼以及程序等，是通用型的模型，可以生成任何我們需要的內(nèi)容。目前國內(nèi)外的大廠，都在基于Transformer技術(shù)推出自己的模型。

而且Transformer模型底層是開源的，每個人都可以利用Transformer技術(shù)，然后就是看誰可以設(shè)計出更加精巧的模型結(jié)構(gòu)?，F(xiàn)在ChatGPT是基于GPT模型的，未來可能有更新的GPT模型結(jié)構(gòu)，我們可以去改進(jìn)它。也就是說，首先我們能改變模型結(jié)構(gòu)，其次我們有沒有更多更好的數(shù)據(jù)去訓(xùn)練模型，第三就是如何去訓(xùn)練一個類似ChatGPT的模型，這也是很有講究的。

這三點也可以這么理解，就像教育小孩一樣，首先要有一個類似人類大腦的框架在那里，也就是模型的結(jié)構(gòu)；其次是訓(xùn)練模型的數(shù)據(jù)，相當(dāng)于給小孩看什么樣的教材、講什么樣的課程；第三是如何培養(yǎng)孩子，也就訓(xùn)練的方法。這三點，決定了我們能訓(xùn)練出什么樣的模型。

ChatGPT（資料圖）

觀察者網(wǎng)：現(xiàn)在很多互聯(lián)網(wǎng)大廠在宣傳自己模型的時候，更喜歡突出千億甚至萬億的參數(shù)規(guī)模，這導(dǎo)致行業(yè)在模型參數(shù)上展開“軍備競賽”，業(yè)界也似乎秉持著“模型越大越好”的觀點，您如何評價這種觀點？我們該如何認(rèn)識一個大模型的水平？

丁磊：大模型或模型大只是單一評價維度，大公司喜歡突出參數(shù)規(guī)模，是因為他們可以調(diào)動的資源更多，比如在算力、數(shù)據(jù)等層面，他們更有優(yōu)勢，所以他們更偏向突出模型參數(shù)規(guī)模的優(yōu)勢。但是從客觀角度來說，我覺得模型的“深度”更重要。

什么叫深度？是指模型在某一領(lǐng)域解決問題的能力更強(qiáng)，比如解決數(shù)學(xué)問題的能力更突出，或者在具體行業(yè)應(yīng)用中，能把某一行業(yè)的問題解決的更專業(yè)，這就叫模型更深。如果一個模型只是夠大，并不能解決相應(yīng)的業(yè)務(wù)問題，或者是只能解決部分問題，給不出完全正確的解決方案，在很多情況下就會失去用處。因此，除了關(guān)注參數(shù)規(guī)模之外，還要看重模型的深度。

觀察者網(wǎng)：能否這樣理解，大模型的“大”代表的是通用性，如果中小企業(yè)沒有能力去煉大模型的話，可以基于大廠研發(fā)的大模型，去做更加專用的行業(yè)模型來服務(wù)自身的業(yè)務(wù)？

丁磊：大部分的中小企業(yè)并不會去參與大模型的競賽，相反他們會基于開源的大模型去研發(fā)，甚至ChatGPT也都支持在線的訓(xùn)練和迭代。也就是說，這些中小企業(yè)會利用一些開源的大模型，或者在線可以訓(xùn)練迭代的大模型，去解決他們業(yè)務(wù)場景的問題，來構(gòu)建相應(yīng)的“深模型”，這也是大部分中小企業(yè)應(yīng)該走的路。

觀察者網(wǎng)：現(xiàn)在布局大模型的大多都是互聯(lián)網(wǎng)企業(yè)，像國內(nèi)的阿里、百度、騰訊等，以及美國的微軟和谷歌，互聯(lián)網(wǎng)企業(yè)在做大模型方面有哪些獨(dú)特的優(yōu)勢？

丁磊：互聯(lián)網(wǎng)大廠在數(shù)據(jù)積累方面肯定更有優(yōu)勢，但我認(rèn)為開源還是會成為整個行業(yè)的趨勢，現(xiàn)在國內(nèi)外都有開源的大模型，使用的數(shù)據(jù)大多也都是互聯(lián)網(wǎng)上公開的，像OpenAI訓(xùn)練ChatGPT使用的數(shù)據(jù)，大多也都是互聯(lián)網(wǎng)上可以公開獲得的。大公司獲取數(shù)據(jù)的速度可能會更快，獲得體量也會更大，但這并不意味著互聯(lián)網(wǎng)巨頭在大模型領(lǐng)域有絕對的壟斷優(yōu)勢。我們之前分析過，實際上訓(xùn)練ChatGPT這種大模型，實力雄厚的創(chuàng)業(yè)公司或者一些中型公司，也都有能力來做這方面的事，不一定只有大公司才能做。

觀察者網(wǎng)：中美在AI領(lǐng)域的競爭最引人關(guān)注。馬斯克不久前曾提到，中美在AI方面的差距大約在十二個月左右。而國內(nèi)一些廠商稱自己的大模型部分能力已超越ChatGPT，并且很快將整體趕超ChatGPT。您如何看待中美在AI方面的差距，國內(nèi)廠商能否迅速趕超美國企業(yè)？

丁磊：我覺得與其對比中美，不如對比訓(xùn)練模型這件事跟互聯(lián)網(wǎng)思維模式的差別。各國企業(yè)其實沒有本質(zhì)差別，都可以做訓(xùn)練模型這件事，但誰能最終做出來，就需要一種新的思維方式。打個比方，包括谷歌在內(nèi)的互聯(lián)網(wǎng)公司研發(fā)產(chǎn)品，采用的是“養(yǎng)雞模式”，公司會將“養(yǎng)雞”拆成不同的細(xì)分任務(wù)，多部門人員各自負(fù)責(zé)具體業(yè)務(wù)。

而訓(xùn)練GPT模型是“養(yǎng)娃模式”，它反而不需要那么多老師、廚師，核心人物只要少數(shù)。也就是說，它很難拆分成完全獨(dú)立的任務(wù)，必須有固定父母站在全局角度，親自教授培養(yǎng)孩子。所以在這種模式下，谷歌沒有最早做出產(chǎn)品的原因很簡單，現(xiàn)有體系很難在AI領(lǐng)域取得里程碑式的成功。訓(xùn)練GPT模型本質(zhì)是一個很難拆解的事，需要公司領(lǐng)導(dǎo)層在技術(shù)、業(yè)務(wù)，甚至資本層都是專家。

另一個簡單的例子就是，美國AI繪畫工具M(jìn)idjourney，是由一家獨(dú)立研究實驗室開發(fā)出來的。包括創(chuàng)始人大衛(wèi)·霍爾茲在內(nèi)僅有11個人，除了他和財務(wù)、法務(wù)，核心只有8位研發(fā)人員。我也曾在IBM沃森研究中心有過一段工作經(jīng)歷，IBM的沃森人工智能也曾陷入這種困境——有太多的人參與人工智能訓(xùn)練，資源太多、研發(fā)不聚焦，造成項目沒有持續(xù)取得成績。

實際上，美國真正專注通用人工智能研發(fā)的知名公司也就兩家——OpenAI以及谷歌母公司Alphabet下設(shè)的人工智能實驗室DeepMind。就目前披露的信息看，OpenAI創(chuàng)始人奧特曼個人能力非常強(qiáng)，不僅懂技術(shù)，也懂商業(yè)運(yùn)作，OpenAI在運(yùn)營過程中也鮮少受股東制約。OpenAI是長在美國硅谷重視工程師地位的文化土壤里，有著強(qiáng)大的“工程師文化基因”，簡單說就是工程師可以主導(dǎo)研發(fā)，擁有更大自主性，發(fā)揮創(chuàng)造性的空間更大。

但OpenAI并不能代表美國的互聯(lián)網(wǎng)公司。所以我認(rèn)為，互聯(lián)網(wǎng)公司在訓(xùn)練大模型這件事上，并不具有天賦基因。它們可以去學(xué)，也可以去適應(yīng)，但它本身并沒有這個基因。他們適合做一件事情，就是像“養(yǎng)雞”這樣的事，或者說更適合做大規(guī)模的生產(chǎn)，但訓(xùn)練模型更像是“養(yǎng)娃”，你不能把這個問題拆分，ChatGPT擁有1750億個參數(shù)，我們沒辦法把它拆分成100份1000份，讓不同團(tuán)隊并行去做，根本做不到。

觀察者網(wǎng)：有沒有可能判斷一下，中美企業(yè)在大模型領(lǐng)域的差距，以及追趕的時間表？

丁磊：這個沒辦法給出明確的時間表，因為現(xiàn)在主要也就OpenAI一家的大模型在各方面都比較領(lǐng)先。但是我認(rèn)為，任何一家互聯(lián)網(wǎng)企業(yè)，如果按照原來的運(yùn)行模式，很難做出像ChatGPT這樣的大模型，無論中國還是美國企業(yè)都一樣。

觀察者網(wǎng)：現(xiàn)在人們?nèi)菀子懻摰膯栴}是，為什么ChatGPT會率先誕生在美國，而中國企業(yè)涌入大模型更像是跟風(fēng)，您怎么看待這種問題？

丁磊：我在硅谷工作多年，非常了解為什么硅谷會出現(xiàn)OpenAI以及奧特曼這樣的人物——是硅谷的“工程師文化基因”造就了他們。OpenAI其實也是一個異類公司，而硅谷擁有技術(shù)驅(qū)動的傳統(tǒng)文化，可以去忽視短期利益去做長期投入。OpenAI以及奧特曼，本身也有較強(qiáng)的資金基礎(chǔ)，使他們可以進(jìn)行大規(guī)模投入，而大部分公司并不具備做這種事情的先決條件。

觀察者網(wǎng)：我們都知道，人工智能有三駕馬車：算力，算法，數(shù)據(jù)。在生成式AI概念中，這三駕馬車的重要性有大小之分嗎？眼下英偉達(dá)的GPU成為稀缺品，國內(nèi)AIGC的發(fā)展會因為算力因素受限嗎？

丁磊：數(shù)據(jù)、算法和算力都很重要。但是我認(rèn)為，數(shù)據(jù)現(xiàn)在比較容易獲得，很多數(shù)據(jù)都是互聯(lián)網(wǎng)上的數(shù)據(jù)，可以很容易獲得。最核心的還是算法，這關(guān)系到模型訓(xùn)練的效果。

首頁上一頁 1 2 3 下一頁余下全文
|

舉報
- 違反法律法規(guī)
- 垃圾信息、廣告
- 色情、淫穢信息
- 人身攻擊
- 謠言、不實信息
- 冒充，冒用信息
- 破壞社區(qū)秩序
- 其他
- 涉未成年人有害信息
觀察者網(wǎng)舉報制度規(guī)范
確定取消
標(biāo)簽 AI 大模型
- 責(zé)任編輯: 呂棟
- 昔日頂流基金經(jīng)理蔡嵩松行賄、受賄案已當(dāng)庭宣判
  
  2024-05-08 22:54
- 王炸芯片，難再成蘋果救星
  
  2024-05-08 18:18 觀網(wǎng)財經(jīng)-科創(chuàng)
- ST陽光：控股股東涉嫌內(nèi)幕交易被證監(jiān)會擬罰款2.32億元
  
  2024-05-07 20:57
- 華為蘋果同日對決，背后還有中韓面板之爭
  
  2024-05-07 17:23 觀網(wǎng)財經(jīng)-科創(chuàng)
- 歷史性一幕！iPhone在華市場份額跌出前五
  
  2024-05-07 11:13 觀網(wǎng)財經(jīng)-科創(chuàng)
- 45億加碼“五五購物節(jié)”，拼多多助力上?！捌础背鼍?/a>
  
  2024-05-06 19:32
- 美國?Tiktok法案的起草人，引火燒身了
  
  2024-05-06 18:47 觀網(wǎng)財經(jīng)-金融
- 舒適賽道紅利釋放，紅豆股份品牌轉(zhuǎn)型出成效
  
  2024-05-06 13:33
- “五一”近3億人次出游，較2019年同期增長28.2%
  
  2024-05-06 12:16 觀察者頭條
- 巴菲特股東大會要點來了！回應(yīng)減持蘋果、巨額現(xiàn)金儲備等
  
  2024-05-05 08:28
- 武廣高鐵、滬杭客專等4條高鐵線漲價，漲幅近20%
  
  2024-05-04 14:13 高鐵世紀(jì)
- 深圳將取消福田、南山之外區(qū)域住房限購？深圳住建局回應(yīng)
  
  2024-05-04 10:27 觀網(wǎng)財經(jīng)-房產(chǎn)
- 庫克涉華最新發(fā)聲
  
  2024-05-04 10:14 跨國企業(yè)在中國
- 20張營業(yè)執(zhí)照只有3家實存？央媒：問題在下頭，根子在上頭
  
  2024-05-03 11:21 基層治理
- 上海推出商品住房“以舊換新”活動
  
  2024-05-03 09:39 觀網(wǎng)財經(jīng)-房產(chǎn)
- 中俄東線天然氣管道最新進(jìn)展
  
  2024-05-03 09:30 國企備忘錄
- 31省份“一季報”：蘇魯浙增速超6%，山西總量下滑
  
  2024-05-02 21:39 宏觀經(jīng)濟(jì)
- 美聯(lián)儲維持利率不變，納指兩連跌星巴克重挫
  
  2024-05-02 07:42 觀網(wǎng)財經(jīng)-海外
- 南京公積金新政：包括宣城、馬鞍山在內(nèi)的南京都市圈9城互認(rèn)互貸
  
  2024-05-01 19:50 觀網(wǎng)財經(jīng)-房產(chǎn)
- 美國當(dāng)前經(jīng)濟(jì)數(shù)據(jù)中，也許藏著高官接連訪華的答案
  
  2024-05-01 09:24
搜索

   觀察者頭條查看全部

“全球鉆石價格暴跌，怪中國？” 評論 204

臨近卸任，美商務(wù)部長：對華芯片禁令是“白費(fèi)工夫” 評論 183

特朗普威脅巴拿馬“收回”運(yùn)河，還扯上中國評論 136

被當(dāng)面打臉，日鐵急了評論 69

受中國影響，澳企要在稀土加工業(yè)務(wù)上發(fā)力了評論 89

   風(fēng)聞 · 24小時最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

專訪《生成式人工智能》作者丁磊：中國大模型廠商趕超美國，關(guān)鍵在這里

昔日頂流基金經(jīng)理蔡嵩松行賄、受賄案已當(dāng)庭宣判

王炸芯片，難再成蘋果救星

ST陽光：控股股東涉嫌內(nèi)幕交易被證監(jiān)會擬罰款2.32億元

華為蘋果同日對決，背后還有中韓面板之爭

歷史性一幕！iPhone在華市場份額跌出前五

45億加碼“五五購物節(jié)”，拼多多助力上?！捌础背鼍?/a>

美國?Tiktok法案的起草人，引火燒身了

舒適賽道紅利釋放，紅豆股份品牌轉(zhuǎn)型出成效

“五一”近3億人次出游，較2019年同期增長28.2%

巴菲特股東大會要點來了！回應(yīng)減持蘋果、巨額現(xiàn)金儲備等

武廣高鐵、滬杭客專等4條高鐵線漲價，漲幅近20%

深圳將取消福田、南山之外區(qū)域住房限購？深圳住建局回應(yīng)

庫克涉華最新發(fā)聲

20張營業(yè)執(zhí)照只有3家實存？央媒：問題在下頭，根子在上頭

上海推出商品住房“以舊換新”活動

中俄東線天然氣管道最新進(jìn)展

31省份“一季報”：蘇魯浙增速超6%，山西總量下滑

美聯(lián)儲維持利率不變，納指兩連跌星巴克重挫

南京公積金新政：包括宣城、馬鞍山在內(nèi)的南京都市圈9城互認(rèn)互貸

美國當(dāng)前經(jīng)濟(jì)數(shù)據(jù)中，也許藏著高官接連訪華的答案

“全球鉆石價格暴跌，怪中國？”

巴拿馬總統(tǒng)駁斥，特朗普：走著瞧

特朗普要將墨販毒集團(tuán)列為恐怖組織，墨西哥回應(yīng)

臨近卸任，美商務(wù)部長：對華芯片禁令是“白費(fèi)工夫”

國際巨星阿黛爾被指抄襲，法官：全球下架

“特朗普打算上任首日退出世衛(wèi)”

囧！美軍巡洋艦誤擊墜自家艦載機(jī)

受中國影響，澳企要在稀土加工業(yè)務(wù)上發(fā)力了

“朔爾茨對波蘭總統(tǒng)怒吼，在場領(lǐng)導(dǎo)人都驚了”

被當(dāng)面打臉，日鐵急了

特朗普威脅巴拿馬“收回”運(yùn)河，還扯上中國

中吉烏鐵路下周正式開工！

“沙特曾多次警告德國提防嫌疑人”

特朗普最新任命！這次包括火箭隊老板、真人秀制作人

巴勒斯坦三個政治派別發(fā)表聯(lián)合聲明

“中國在非洲真正贏得了民心，就連斯威士蘭…”

專訪《生成式人工智能》作者丁磊：中國大模型廠商趕超美國，關(guān)鍵在這里

專訪《生成式人工智能》作者丁磊：中國大模型廠商趕超美國，關(guān)鍵在這里