再這么下去,大模型真要成免費(fèi)電子書(shū)城了。
用大模型,就能讓AI吐出90%以上的《哈利波特》全文,你敢信嗎?
前段時(shí)間,斯坦福的團(tuán)隊(duì)在arXiv上發(fā)表了一篇論文,名為《從開(kāi)源大模型中提?。ㄊ馨鏅?quán)保護(hù)的)書(shū)籍的記憶片段》。
在這篇文章里,Meta的Llama被重點(diǎn)點(diǎn)名,而被復(fù)刻的對(duì)象,是大伙兒都知道的《哈利波特與魔法石》。
復(fù)刻的過(guò)程非常簡(jiǎn)單,主打一個(gè)古詩(shī)詞默寫(xiě),你給上半句,Llama接下半句。而且判定很嚴(yán)格,要一字不差才行。
只有中間一行是成功案例
這么一來(lái)一回,實(shí)驗(yàn)結(jié)果表示,《哈利波特與魔法石》有91.14%的內(nèi)容都能被Llama記住,再給你原封不動(dòng)地背出來(lái)。
但說(shuō)實(shí)話,這數(shù)據(jù)有點(diǎn)過(guò)于保守了。畢竟大部分人看書(shū),多個(gè)字少個(gè)字也不影響理解,加上這部分容錯(cuò)率,Llama能背出來(lái)的比例絕對(duì)不止91.14%。
再結(jié)合下面這張圖,更是錘上加錘。它不僅記得多,還記得全呢。從小說(shuō)開(kāi)頭到結(jié)尾,均勻分布,無(wú)一幸免。
從左到右代表小說(shuō)的開(kāi)始到結(jié)束。
豎線越密,可復(fù)刻內(nèi)容越多,顏色越深,成功概率越高。
我們翻遍全文,發(fā)現(xiàn)哈利波特不是唯一一本被記住的,Llama也不是唯一一個(gè)會(huì)背書(shū)的,大家或多或少都沾點(diǎn)。
除了Llama,Pythia、Gemma、Phi也在這不恰當(dāng)?shù)臅r(shí)刻展示出了它們驚人的記憶力。文章里只列出來(lái)了100本被記住的書(shū),實(shí)際上它們背得更多。
本來(lái)拿版權(quán)方的東西去做訓(xùn)練都忍不了,現(xiàn)在居然還能背出來(lái)?要不是現(xiàn)在大模型有上下文長(zhǎng)度限制,豈不是一鍵輸出全文了?
咱認(rèn)真研究了一下這個(gè)事,發(fā)現(xiàn)鍋一部分在科技公司頭上,另一部分在一個(gè)叫Books3的數(shù)據(jù)集上。
Books3是一個(gè)包含196640本txt的數(shù)據(jù)集,里面偷了不少盜版書(shū)。幾乎所有大模型都用它做訓(xùn)練,不過(guò)數(shù)據(jù)集明面上很早就被下架,變成了不能說(shuō)的秘密。
Paperwithcode網(wǎng)站上留存的Book3悼詞
很顯然,大家都用了Books3搞訓(xùn)練,只不過(guò)有些大模型沒(méi)做好安全防御機(jī)制,才被抓住了把柄。
于是,經(jīng)常被gank的Meta又一次被13位作家送上了法庭。
沒(méi)經(jīng)我們?cè)试S,就拿我們的作品去訓(xùn)練大模型。這回證據(jù)確鑿,還能一字不差吐出來(lái),你認(rèn)不認(rèn)?
連一向討厭JK羅琳的吃瓜群眾也紛紛覺(jué)得,拿盜版書(shū)訓(xùn)練模型就是侵權(quán),沒(méi)啥可洗的。
出乎所有人意料的是,Meta居然贏了官司??赐炅饲耙蚝蠊覀冇X(jué)得版權(quán)方純粹是輸在了智商。。。
版權(quán)方提出的舉證,是Llama把書(shū)背出來(lái),損害到了他們真書(shū)的銷量。
但要說(shuō)現(xiàn)在,有人用大模型生成哈利波特直接當(dāng)成電子書(shū)看,那也太高難了,不可能在市場(chǎng)上和真書(shū)產(chǎn)生競(jìng)爭(zhēng)關(guān)系。
再看看Meta方的辯詞:美國(guó)版權(quán)法“允許未經(jīng)授權(quán),復(fù)制作品并將其轉(zhuǎn)化為新作品”,并且聊天機(jī)器人產(chǎn)生的人工智能表達(dá),與訓(xùn)練用的書(shū)籍有著根本的不同。
用人話講,科學(xué)的東西,你得看原理。大模型輸出的東西都是它學(xué)習(xí)理解再轉(zhuǎn)述出來(lái)的,就跟人讀書(shū)寫(xiě)作似的,屬于“新作品”了。
最終法官表示,作者未能提供足夠證據(jù)證明,大模型會(huì)搶真書(shū)的份額,但用盜版訓(xùn)練大模型,確實(shí)不地道。
意思就是,版權(quán)方論點(diǎn)對(duì)了,論據(jù)給錯(cuò)了。
而版權(quán)方和大模型互撕,這不是第一次,肯定也不是最后一次。
2023年,紐約時(shí)報(bào)起訴OpenAI訓(xùn)練集涉及侵權(quán)。近期,還有Reddit起訴Claude、迪士尼和環(huán)球聯(lián)合告Midjourney、作家組團(tuán)和微軟Megatron打官司等等。。。
感覺(jué)一個(gè)大模型要是沒(méi)被告過(guò),只能說(shuō)明它做得太拉了,無(wú)人在意。
在雷區(qū)反復(fù)橫跳
那天天上法庭,科技公司就沒(méi)啥預(yù)防手段嗎?我們查了一下相關(guān)資料,發(fā)現(xiàn)為了不被告,有的公司選擇買斷網(wǎng)站數(shù)據(jù)庫(kù),比如谷歌買斷Reddit數(shù)據(jù)包,而有的公司真是什么匪夷所思的事都做得出來(lái)。
舉個(gè)最近的例子,2024年Claude背后的Anthropic意識(shí)到使用盜版數(shù)據(jù)集的法律風(fēng)險(xiǎn),于是花了數(shù)百萬(wàn)美元購(gòu)買實(shí)體圖書(shū)。
考慮到成本,收來(lái)的書(shū)里很多是二手,掃描入庫(kù)制成數(shù)據(jù)集后立刻銷毀。數(shù)據(jù)集只在公司內(nèi)部用于訓(xùn)練,不可外傳。
這單純是為了迎合美國(guó)的首次銷售原則,只要你買了第一次,之后想怎么處理它都可以。
咱也不知道這些實(shí)體書(shū)里有沒(méi)有啥珍貴孤本,反正為了不侵權(quán),Anthropic沒(méi)坑儒,只焚書(shū)了。
這個(gè)舉動(dòng)確實(shí)成為了Anthropic在法庭上的制勝一擊,但問(wèn)題是,這么做真的合理嗎?
吃完這個(gè)瓜,我能理解為啥那么多版權(quán)方想手撕大模型,也能理解科技公司為啥非得干這么不地道的事兒。
從大模型訓(xùn)練的角度,它無(wú)法避免對(duì)大量高質(zhì)量數(shù)據(jù)的需求,科技發(fā)展不等人,也沒(méi)有時(shí)間等待各種授權(quán)。它能做到最好的,也就是把侵權(quán)的內(nèi)容厚碼一下,盡量減小對(duì)正主的影響。
而從版權(quán)方的角度,大模型這樣發(fā)展下去,他們的利益遲早會(huì)被徹底侵犯。不止現(xiàn)在啃他們一口又一口,未來(lái)還可能被盜版訓(xùn)練出來(lái)的模型取而代之。
這種不可調(diào)和的矛盾,造成為了形式正義而毀書(shū)一類的荒謬舉動(dòng)。
只能說(shuō),爭(zhēng)取權(quán)益是必要的,但在這場(chǎng)爭(zhēng)端里,恐怕沒(méi)有真正的贏家。
小說(shuō):算命說(shuō)我只配做權(quán)貴金絲雀,我偏要逆天改命,驚艷眾人
《最后一個(gè)女玄術(shù)師》作者:吞鬼的女孩第1章詭異的招聘廣告“我們分手吧|。”坐在飯桌那邊的英俊男人平靜地說(shuō)-。葉思媚心頭苦澀,這一刻還是來(lái)了_。那個(gè)男人叫景少川,出身京都名門景家。不知為何,他竟然到大川市這個(gè)小地方讀大學(xué),雖然大川學(xué)院也是國(guó)家985院校,但以他的成績(jī)和才智,讀華清大學(xué)或者京都大學(xué)都不成問(wèn)題_——。他 但是葉思媚知道,他們不是一個(gè)世界的人,景少川遲早是要走的-|。景少川也沒(méi)有碰過(guò)她,唯一一次吻她是在她二十一歲生日那天,平時(shí)他們連手都沒(méi)有牽過(guò)。有一次景少川生了一場(chǎng)大病,為了替他治病,葉思媚當(dāng)?shù)袅四赣H留給她的唯一一件遺物,也是她最珍貴的東西——鉆石項(xiàng)鏈,終于湊夠了錢,從一位老中醫(yī)那里求得了一副等我繼續(xù)說(shuō)|。小說(shuō):天生艷骨被預(yù)言為權(quán)貴玩物?葉思媚:拿刀來(lái),逆襲給你看!