-
大模型時代“得數(shù)據(jù)者得天下”,但數(shù)據(jù)侵權(quán)如何界定?
最后更新: 2024-01-04 12:09:41(文/陳濟(jì)深 編輯/呂棟)
2023年以來,隨著生成式AI的爆火,其不僅一定程度上給用戶提供了便利,也在不斷重塑互聯(lián)網(wǎng)行業(yè)的競爭格局,中外諸多廠商均加入了大模型開發(fā)的戰(zhàn)局,也間接引發(fā)了諸多的版權(quán)糾紛。
本周,紐約時報(bào)起訴OpenAI和微軟違規(guī)收集其新聞進(jìn)行訓(xùn)練一事(紐約時報(bào)起訴OpenAI和微軟“不勞而獲”,要求消滅),再次將大模型開發(fā)中涉嫌違規(guī)采集數(shù)據(jù)的問題暴露在公眾視野之下。
據(jù)不完全統(tǒng)計(jì),今年僅在美國加州,就已經(jīng)有數(shù)十起針對大模型開發(fā)商違規(guī)使用數(shù)據(jù)的訴訟。
這些訴訟頻發(fā)的背后是目前版權(quán)法案中,存在大模型對數(shù)據(jù)極度渴求和數(shù)據(jù)供應(yīng)難以迅速增長的矛盾,“先授權(quán)后使用”的現(xiàn)有版權(quán)法律體系并無法匹配AI時代的數(shù)據(jù)使用方式,也引發(fā)了法律監(jiān)管的新問題。
大模型訓(xùn)練階段究竟涉及哪些版權(quán)利用行為,這一過程可能存在哪些侵權(quán)風(fēng)險(xiǎn)?而全球監(jiān)管部門面對這個問題,也給出了各自的解答。
數(shù)據(jù)為王,版權(quán)訴訟戰(zhàn)頻發(fā)
在大模型爆炸性發(fā)展的2023年,紐約時報(bào)起訴OpenAI和微軟只不過是貫徹全年版權(quán)訴訟大戰(zhàn)的一個縮影。
今年1月,圖庫網(wǎng)站Getty Images對AI圖像生成器研發(fā)公司Stability AI提起法律訴訟,指其非法復(fù)制和處理版權(quán)圖像作為模型訓(xùn)練數(shù)據(jù)。
4月,環(huán)球音樂集團(tuán)發(fā)函要求Spotify等音樂流媒體平臺切斷AI公司的訪問權(quán)限,以阻止其版權(quán)歌曲被用于訓(xùn)練模型和生成音樂。
6月,國內(nèi)的教培巨頭學(xué)而思也被爆出,未經(jīng)授權(quán)利用合作伙伴筆神作文數(shù)據(jù)進(jìn)行大模型訓(xùn)練導(dǎo)致的紛爭。
據(jù)不完全統(tǒng)計(jì),自2022年11月至2023年10月,僅美國加州北區(qū)法院便已經(jīng)受理了10起,版權(quán)人起訴Stability AI、Open AI、Meta、Alphabet等AIGC研發(fā)企業(yè)未經(jīng)授權(quán),利用版權(quán)作品進(jìn)行模型訓(xùn)練的案件。
在被告名單上,可以看到各個互聯(lián)網(wǎng)巨頭均在其中,而侵權(quán)訴訟頻發(fā)的背后則是大模型企業(yè)對于數(shù)據(jù)的極度渴求。
有業(yè)內(nèi)人士對觀察者網(wǎng)表示:“目前的大模型競爭時代下,相比算法,得數(shù)據(jù)者得天下?!?
一方面,訓(xùn)練數(shù)據(jù)是大模型訓(xùn)練的基石和燃料,如果沒有數(shù)據(jù),大模型的訓(xùn)練就無法開展和持續(xù)。另一方面,當(dāng)前技術(shù)領(lǐng)域的研究顯示,各家大模型在算法層區(qū)別并不大,并且具有同質(zhì)化的趨勢。在此背景下,訓(xùn)練數(shù)據(jù)就成了真正區(qū)分且影響大模型性能的重要因素之一。
以O(shè)penAI的幾代GPT模型為例,訓(xùn)練數(shù)據(jù)上,GPT-1預(yù)訓(xùn)練數(shù)據(jù)量僅有5GB;到了GPT-2,這個數(shù)據(jù)則增加至40GB;而在GPT3模型下,OpenAI用以訓(xùn)練模型的數(shù)據(jù)集數(shù)據(jù)量達(dá)到了驚人的45TB,而相比GPT3的1750億參數(shù)規(guī)模,GPT4相傳達(dá)到了100萬億規(guī)模的參數(shù),對于數(shù)據(jù)的需求呈指數(shù)型飆升。
相比需求的爆炸性增長,對于各家大模型企業(yè)而言,自身數(shù)據(jù)和公開數(shù)據(jù)的供應(yīng)顯然難以滿足這種指數(shù)型的需求,從互聯(lián)網(wǎng)和其他友商那“搭便車”成了行業(yè)內(nèi)公開的秘密,也成為了目前版權(quán)訴訟頻發(fā)的根本原因。
為了應(yīng)對“偷數(shù)據(jù)”頻發(fā)的現(xiàn)象,除了通過訴訟手段外,不少互聯(lián)網(wǎng)企業(yè)也利用了技術(shù)手段開啟防御模式。
目前,有多家處在“數(shù)據(jù)提供端”的公司對數(shù)據(jù)抓取、開源等做出了反應(yīng)。比如X(原名Twitter)限制了用戶每天能查看的推文數(shù)量,幾乎使數(shù)據(jù)提供服務(wù)無法使用。馬斯克對此曾表示,這是對“數(shù)據(jù)抓取”和“系統(tǒng)操縱”的必要反應(yīng)。
2023年4月,Reddit官方宣布將對調(diào)用其API的公司收費(fèi),原因正是OpenAI、谷歌等公司利用該平臺上的數(shù)據(jù)訓(xùn)練模型。
此外,IT技術(shù)問答網(wǎng)站Stack Overflow也計(jì)劃向AI大模型的開發(fā)者及公司收取數(shù)據(jù)訪問費(fèi)用。
標(biāo)簽 AI大模型- 責(zé)任編輯: 陳濟(jì)深 
-
凈利潤“腰斬式”下滑,南航物流IPO募資數(shù)十億買飛機(jī)
2024-01-04 11:51 觀網(wǎng)財(cái)經(jīng)-金融 -
時隔一年央行重啟PSL,釋放了什么政策信號?
2024-01-03 16:54 -
蘋果仍主導(dǎo)全球高端機(jī)市場,余承東稱華為要在中國“全面反攻”
2024-01-03 15:10 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
外媒緊盯:特斯拉首次被比亞迪超越
2024-01-03 10:46 觀察者頭條 -
對這項(xiàng)重要資源,八部門聯(lián)合發(fā)布方案
2024-01-03 10:21 -
“愛潑斯坦案”數(shù)百份密封文件將公布,克林頓代號“無名氏36”
2024-01-01 14:37 -
長光衛(wèi)星闖關(guān)科創(chuàng)板,經(jīng)營活動凈現(xiàn)金流持續(xù)為負(fù)
2023-12-31 15:47 -
“大錯特錯”!阿根廷宣布不加入金磚
2023-12-30 22:49 金磚國家 -
采銷固定薪酬翻倍、業(yè)績激勵上不封頂,京東重回奔騰年代
2023-12-29 21:26 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
RTX 4090被禁售后,英偉達(dá)在中國市場推出“閹割版”
2023-12-29 18:55 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
央行:進(jìn)一步提升境外來華人士的支付便利化
2023-12-29 18:31 觀網(wǎng)財(cái)經(jīng)-金融 -
統(tǒng)計(jì)局最終核實(shí)2022年GDP,比初步核算數(shù)減少5483億元
2023-12-29 16:11 中國經(jīng)濟(jì) -
日企控股的硅片生產(chǎn)商欲登陸A股,目標(biāo)估值超200億
2023-12-29 15:11 觀網(wǎng)財(cái)經(jīng)-金融 -
招商銀行“逆向討薪”近6000萬
2023-12-29 14:59 -
外國人持證可在線開A股賬戶,頭部券商已上線相關(guān)功能
2023-12-29 14:52 股市 -
2023年人民幣對美元中間價全年累計(jì)下跌近1.7%
2023-12-29 11:06
相關(guān)推薦 -
“中國在非洲真正贏得了民心,就連斯威士蘭…” 評論 87最新聞 Hot
-
“沙特曾多次警告德國提防嫌疑人”
-
特朗普最新任命!這次包括火箭隊(duì)老板、真人秀制作人
-
巴勒斯坦三個政治派別發(fā)表聯(lián)合聲明
-
“中國在非洲真正贏得了民心,就連斯威士蘭…”
-
“日企抱團(tuán)是絕望之舉,中國工廠效率質(zhì)量都是第一”
-
“中國有能力讓夢想照進(jìn)現(xiàn)實(shí),將贏得史詩般競爭”
-
被災(zāi)民暴罵到當(dāng)場破防,馬克龍發(fā)飆:你該慶幸你在法國!
-
美高校敦促國際學(xué)生抓緊回來:萬一把中印拉黑名單呢
-
美國政府“逃過一劫”
-
“澤連斯基要求歐盟新外長:對華批評要降調(diào)”
-
澳大利亞來了,中國就得走人?澳總理這么回應(yīng)
-
美媒感慨:基建狂魔發(fā)力,我們又要被超越了
-
英國剛公布新任大使,特朗普顧問就痛罵:傻X
-
“來自中國的老大哥能確保我們…”
-
俄羅斯的報(bào)復(fù)來了
-
澤連斯基罵普京“傻子”,俄方怒斥
-