-
專訪《生成式人工智能》作者丁磊:中國大模型廠商趕超美國,關(guān)鍵在這里
-
呂棟lvdong@guancha.cn
最后更新: 2024-05-08 23:15:24觀察者網(wǎng):您在新書《生成式人工智能》中提到,Transformer與ChatGPT模型的出現(xiàn)密切相關(guān),已成為深度學(xué)習(xí)最亮眼的成果之一,但很多人不明白什么是Transformer,為什么Transformer這么重要?除了Transformer,催生ChatGPT這類大模型的關(guān)鍵技術(shù)還有哪些?
丁磊:提到Transformer,大家肯定首先想到的就是“transform”這個詞,也就是“轉(zhuǎn)換”的意思。而顧名思義,Transformer也就是“轉(zhuǎn)換器”的意思。為什么一個技術(shù)模型要叫“轉(zhuǎn)換器”呢?其實這也正是Transformer的核心,也就是它能實現(xiàn)的功能——從序列到序列。
序列到序列模型(sequence to sequence)是在2014年提出的。所謂序列,指的是文本數(shù)據(jù)、語音數(shù)據(jù)、視頻數(shù)據(jù)等一系列具有連續(xù)關(guān)系的數(shù)據(jù)。在序列到序列模型中,只要能編碼成序列,輸入和輸出的可以是任何形式的內(nèi)容。而序列編碼形式非常廣泛,我們?nèi)粘W龅拇蟛糠止ぷ鞫伎梢跃幋a成序列,因此這種模型可以解決很多問題。
2017年出現(xiàn)的Transformer模型,在序列到序列模型基礎(chǔ)上有兩大提升,分別是采用多頭注意力機(jī)制和引入位置編碼機(jī)制,能夠識別更復(fù)雜的語言情況,從而能夠處理更為復(fù)雜的任務(wù)。在Transformer模型中,能輸出或生成的內(nèi)容更加廣泛,包括文本、圖像、語音、視頻以及更廣義的內(nèi)容,例如它可以生成報告、策劃方案、代碼以及程序等,是通用型的模型,可以生成任何我們需要的內(nèi)容。目前國內(nèi)外的大廠,都在基于Transformer技術(shù)推出自己的模型。
而且Transformer模型底層是開源的,每個人都可以利用Transformer技術(shù),然后就是看誰可以設(shè)計出更加精巧的模型結(jié)構(gòu)?,F(xiàn)在ChatGPT是基于GPT模型的,未來可能有更新的GPT模型結(jié)構(gòu),我們可以去改進(jìn)它。也就是說,首先我們能改變模型結(jié)構(gòu),其次我們有沒有更多更好的數(shù)據(jù)去訓(xùn)練模型,第三就是如何去訓(xùn)練一個類似ChatGPT的模型,這也是很有講究的。
這三點也可以這么理解,就像教育小孩一樣,首先要有一個類似人類大腦的框架在那里,也就是模型的結(jié)構(gòu);其次是訓(xùn)練模型的數(shù)據(jù),相當(dāng)于給小孩看什么樣的教材、講什么樣的課程;第三是如何培養(yǎng)孩子,也就訓(xùn)練的方法。這三點,決定了我們能訓(xùn)練出什么樣的模型。
ChatGPT(資料圖)
觀察者網(wǎng):現(xiàn)在很多互聯(lián)網(wǎng)大廠在宣傳自己模型的時候,更喜歡突出千億甚至萬億的參數(shù)規(guī)模,這導(dǎo)致行業(yè)在模型參數(shù)上展開“軍備競賽”,業(yè)界也似乎秉持著“模型越大越好”的觀點,您如何評價這種觀點?我們該如何認(rèn)識一個大模型的水平?
丁磊:大模型或模型大只是單一評價維度,大公司喜歡突出參數(shù)規(guī)模,是因為他們可以調(diào)動的資源更多,比如在算力、數(shù)據(jù)等層面,他們更有優(yōu)勢,所以他們更偏向突出模型參數(shù)規(guī)模的優(yōu)勢。但是從客觀角度來說,我覺得模型的“深度”更重要。
什么叫深度?是指模型在某一領(lǐng)域解決問題的能力更強(qiáng),比如解決數(shù)學(xué)問題的能力更突出,或者在具體行業(yè)應(yīng)用中,能把某一行業(yè)的問題解決的更專業(yè),這就叫模型更深。如果一個模型只是夠大,并不能解決相應(yīng)的業(yè)務(wù)問題,或者是只能解決部分問題,給不出完全正確的解決方案,在很多情況下就會失去用處。因此,除了關(guān)注參數(shù)規(guī)模之外,還要看重模型的深度。
觀察者網(wǎng):能否這樣理解,大模型的“大”代表的是通用性,如果中小企業(yè)沒有能力去煉大模型的話,可以基于大廠研發(fā)的大模型,去做更加專用的行業(yè)模型來服務(wù)自身的業(yè)務(wù)?
丁磊:大部分的中小企業(yè)并不會去參與大模型的競賽,相反他們會基于開源的大模型去研發(fā),甚至ChatGPT也都支持在線的訓(xùn)練和迭代。也就是說,這些中小企業(yè)會利用一些開源的大模型,或者在線可以訓(xùn)練迭代的大模型,去解決他們業(yè)務(wù)場景的問題,來構(gòu)建相應(yīng)的“深模型”,這也是大部分中小企業(yè)應(yīng)該走的路。
觀察者網(wǎng):現(xiàn)在布局大模型的大多都是互聯(lián)網(wǎng)企業(yè),像國內(nèi)的阿里、百度、騰訊等,以及美國的微軟和谷歌,互聯(lián)網(wǎng)企業(yè)在做大模型方面有哪些獨(dú)特的優(yōu)勢?
丁磊:互聯(lián)網(wǎng)大廠在數(shù)據(jù)積累方面肯定更有優(yōu)勢,但我認(rèn)為開源還是會成為整個行業(yè)的趨勢,現(xiàn)在國內(nèi)外都有開源的大模型,使用的數(shù)據(jù)大多也都是互聯(lián)網(wǎng)上公開的,像OpenAI訓(xùn)練ChatGPT使用的數(shù)據(jù),大多也都是互聯(lián)網(wǎng)上可以公開獲得的。大公司獲取數(shù)據(jù)的速度可能會更快,獲得體量也會更大,但這并不意味著互聯(lián)網(wǎng)巨頭在大模型領(lǐng)域有絕對的壟斷優(yōu)勢。我們之前分析過,實際上訓(xùn)練ChatGPT這種大模型,實力雄厚的創(chuàng)業(yè)公司或者一些中型公司,也都有能力來做這方面的事,不一定只有大公司才能做。
觀察者網(wǎng):中美在AI領(lǐng)域的競爭最引人關(guān)注。馬斯克不久前曾提到,中美在AI方面的差距大約在十二個月左右。而國內(nèi)一些廠商稱自己的大模型部分能力已超越ChatGPT,并且很快將整體趕超ChatGPT。您如何看待中美在AI方面的差距,國內(nèi)廠商能否迅速趕超美國企業(yè)?
丁磊:我覺得與其對比中美,不如對比訓(xùn)練模型這件事跟互聯(lián)網(wǎng)思維模式的差別。各國企業(yè)其實沒有本質(zhì)差別,都可以做訓(xùn)練模型這件事,但誰能最終做出來,就需要一種新的思維方式。打個比方,包括谷歌在內(nèi)的互聯(lián)網(wǎng)公司研發(fā)產(chǎn)品,采用的是“養(yǎng)雞模式”,公司會將“養(yǎng)雞”拆成不同的細(xì)分任務(wù),多部門人員各自負(fù)責(zé)具體業(yè)務(wù)。
而訓(xùn)練GPT模型是“養(yǎng)娃模式”,它反而不需要那么多老師、廚師,核心人物只要少數(shù)。也就是說,它很難拆分成完全獨(dú)立的任務(wù),必須有固定父母站在全局角度,親自教授培養(yǎng)孩子。所以在這種模式下,谷歌沒有最早做出產(chǎn)品的原因很簡單,現(xiàn)有體系很難在AI領(lǐng)域取得里程碑式的成功。訓(xùn)練GPT模型本質(zhì)是一個很難拆解的事,需要公司領(lǐng)導(dǎo)層在技術(shù)、業(yè)務(wù),甚至資本層都是專家。
另一個簡單的例子就是,美國AI繪畫工具M(jìn)idjourney,是由一家獨(dú)立研究實驗室開發(fā)出來的。包括創(chuàng)始人大衛(wèi)·霍爾茲在內(nèi)僅有11個人,除了他和財務(wù)、法務(wù),核心只有8位研發(fā)人員。我也曾在IBM沃森研究中心有過一段工作經(jīng)歷,IBM的沃森人工智能也曾陷入這種困境——有太多的人參與人工智能訓(xùn)練,資源太多、研發(fā)不聚焦,造成項目沒有持續(xù)取得成績。
實際上,美國真正專注通用人工智能研發(fā)的知名公司也就兩家——OpenAI以及谷歌母公司Alphabet下設(shè)的人工智能實驗室DeepMind。就目前披露的信息看,OpenAI創(chuàng)始人奧特曼個人能力非常強(qiáng),不僅懂技術(shù),也懂商業(yè)運(yùn)作,OpenAI在運(yùn)營過程中也鮮少受股東制約。OpenAI是長在美國硅谷重視工程師地位的文化土壤里,有著強(qiáng)大的“工程師文化基因”,簡單說就是工程師可以主導(dǎo)研發(fā),擁有更大自主性,發(fā)揮創(chuàng)造性的空間更大。
但OpenAI并不能代表美國的互聯(lián)網(wǎng)公司。所以我認(rèn)為,互聯(lián)網(wǎng)公司在訓(xùn)練大模型這件事上,并不具有天賦基因。它們可以去學(xué),也可以去適應(yīng),但它本身并沒有這個基因。他們適合做一件事情,就是像“養(yǎng)雞”這樣的事,或者說更適合做大規(guī)模的生產(chǎn),但訓(xùn)練模型更像是“養(yǎng)娃”,你不能把這個問題拆分,ChatGPT擁有1750億個參數(shù),我們沒辦法把它拆分成100份1000份,讓不同團(tuán)隊并行去做,根本做不到。
觀察者網(wǎng):有沒有可能判斷一下,中美企業(yè)在大模型領(lǐng)域的差距,以及追趕的時間表?
丁磊:這個沒辦法給出明確的時間表,因為現(xiàn)在主要也就OpenAI一家的大模型在各方面都比較領(lǐng)先。但是我認(rèn)為,任何一家互聯(lián)網(wǎng)企業(yè),如果按照原來的運(yùn)行模式,很難做出像ChatGPT這樣的大模型,無論中國還是美國企業(yè)都一樣。
觀察者網(wǎng):現(xiàn)在人們?nèi)菀子懻摰膯栴}是,為什么ChatGPT會率先誕生在美國,而中國企業(yè)涌入大模型更像是跟風(fēng),您怎么看待這種問題?
丁磊:我在硅谷工作多年,非常了解為什么硅谷會出現(xiàn)OpenAI以及奧特曼這樣的人物——是硅谷的“工程師文化基因”造就了他們。OpenAI其實也是一個異類公司,而硅谷擁有技術(shù)驅(qū)動的傳統(tǒng)文化,可以去忽視短期利益去做長期投入。OpenAI以及奧特曼,本身也有較強(qiáng)的資金基礎(chǔ),使他們可以進(jìn)行大規(guī)模投入,而大部分公司并不具備做這種事情的先決條件。
觀察者網(wǎng):我們都知道,人工智能有三駕馬車:算力,算法,數(shù)據(jù)。在生成式AI概念中,這三駕馬車的重要性有大小之分嗎?眼下英偉達(dá)的GPU成為稀缺品,國內(nèi)AIGC的發(fā)展會因為算力因素受限嗎?
丁磊:數(shù)據(jù)、算法和算力都很重要。但是我認(rèn)為,數(shù)據(jù)現(xiàn)在比較容易獲得,很多數(shù)據(jù)都是互聯(lián)網(wǎng)上的數(shù)據(jù),可以很容易獲得。最核心的還是算法,這關(guān)系到模型訓(xùn)練的效果。
- 責(zé)任編輯: 呂棟 
-
昔日頂流基金經(jīng)理蔡嵩松行賄、受賄案已當(dāng)庭宣判
2024-05-08 22:54 -
王炸芯片,難再成蘋果救星
2024-05-08 18:18 觀網(wǎng)財經(jīng)-科創(chuàng) -
ST陽光:控股股東涉嫌內(nèi)幕交易被證監(jiān)會擬罰款2.32億元
2024-05-07 20:57 -
華為蘋果同日對決,背后還有中韓面板之爭
2024-05-07 17:23 觀網(wǎng)財經(jīng)-科創(chuàng) -
歷史性一幕!iPhone在華市場份額跌出前五
2024-05-07 11:13 觀網(wǎng)財經(jīng)-科創(chuàng) -
45億加碼“五五購物節(jié)”,拼多多助力上?!捌础背鼍?/a>
2024-05-06 19:32 -
美國?Tiktok法案的起草人,引火燒身了
2024-05-06 18:47 觀網(wǎng)財經(jīng)-金融 -
舒適賽道紅利釋放,紅豆股份品牌轉(zhuǎn)型出成效
2024-05-06 13:33 -
“五一”近3億人次出游,較2019年同期增長28.2%
2024-05-06 12:16 觀察者頭條 -
巴菲特股東大會要點來了!回應(yīng)減持蘋果、巨額現(xiàn)金儲備等
2024-05-05 08:28 -
武廣高鐵、滬杭客專等4條高鐵線漲價,漲幅近20%
2024-05-04 14:13 高鐵世紀(jì) -
深圳將取消福田、南山之外區(qū)域住房限購?深圳住建局回應(yīng)
2024-05-04 10:27 觀網(wǎng)財經(jīng)-房產(chǎn) -
庫克涉華最新發(fā)聲
2024-05-04 10:14 跨國企業(yè)在中國 -
20張營業(yè)執(zhí)照只有3家實存?央媒:問題在下頭,根子在上頭
2024-05-03 11:21 基層治理 -
上海推出商品住房“以舊換新”活動
2024-05-03 09:39 觀網(wǎng)財經(jīng)-房產(chǎn) -
中俄東線天然氣管道最新進(jìn)展
2024-05-03 09:30 國企備忘錄 -
31省份“一季報”:蘇魯浙增速超6%,山西總量下滑
2024-05-02 21:39 宏觀經(jīng)濟(jì) -
美聯(lián)儲維持利率不變,納指兩連跌星巴克重挫
2024-05-02 07:42 觀網(wǎng)財經(jīng)-海外 -
南京公積金新政:包括宣城、馬鞍山在內(nèi)的南京都市圈9城互認(rèn)互貸
2024-05-01 19:50 觀網(wǎng)財經(jīng)-房產(chǎn) -
美國當(dāng)前經(jīng)濟(jì)數(shù)據(jù)中,也許藏著高官接連訪華的答案
2024-05-01 09:24
相關(guān)推薦 -
-
最新聞 Hot
-
“全球鉆石價格暴跌,怪中國?”
-
巴拿馬總統(tǒng)駁斥,特朗普:走著瞧
-
特朗普要將墨販毒集團(tuán)列為恐怖組織,墨西哥回應(yīng)
-
臨近卸任,美商務(wù)部長:對華芯片禁令是“白費(fèi)工夫”
-
國際巨星阿黛爾被指抄襲,法官:全球下架
-
“特朗普打算上任首日退出世衛(wèi)”
-
囧!美軍巡洋艦誤擊墜自家艦載機(jī)
-
受中國影響,澳企要在稀土加工業(yè)務(wù)上發(fā)力了
-
“朔爾茨對波蘭總統(tǒng)怒吼,在場領(lǐng)導(dǎo)人都驚了”
-
被當(dāng)面打臉,日鐵急了
-
特朗普威脅巴拿馬“收回”運(yùn)河,還扯上中國
-
中吉烏鐵路下周正式開工!
-
“沙特曾多次警告德國提防嫌疑人”
-
特朗普最新任命!這次包括火箭隊老板、真人秀制作人
-
巴勒斯坦三個政治派別發(fā)表聯(lián)合聲明
-
“中國在非洲真正贏得了民心,就連斯威士蘭…”
-