帖丹寒
再這么下去,大模型真要成免費電子書城了。
用大模型,就能讓AI吐出90%以上的《哈利波特》全文,你敢信嗎?
前段時間,斯坦福的團隊在arXiv上發(fā)表了一篇論文,名為《從開源大模型中提?。ㄊ馨鏅?quán)保護的)書籍的記憶片段》。
在這篇文章里,Meta的Llama被重點點名,而被復刻的對象,是大伙兒都知道的《哈利波特與魔法石》。
復刻的過程非常簡單,主打一個古詩詞默寫,你給上半句,Llama接下半句。而且判定很嚴格,要一字不差才行。
只有中間一行是成功案例
這么一來一回,實驗結(jié)果表示,《哈利波特與魔法石》有91.14%的內(nèi)容都能被Llama記住,再給你原封不動地背出來。
但說實話,這數(shù)據(jù)有點過于保守了。畢竟大部分人看書,多個字少個字也不影響理解,加上這部分容錯率,Llama能背出來的比例絕對不止91.14%。
再結(jié)合下面這張圖,更是錘上加錘。它不僅記得多,還記得全呢。從小說開頭到結(jié)尾,均勻分布,無一幸免。
從左到右代表小說的開始到結(jié)束。
豎線越密,可復刻內(nèi)容越多,顏色越深,成功概率越高。
我們翻遍全文,發(fā)現(xiàn)哈利波特不是唯一一本被記住的,Llama也不是唯一一個會背書的,大家或多或少都沾點。
除了Llama,Pythia、Gemma、Phi也在這不恰當?shù)臅r刻展示出了它們驚人的記憶力。文章里只列出來了100本被記住的書,實際上它們背得更多。
本來拿版權(quán)方的東西去做訓練都忍不了,現(xiàn)在居然還能背出來?要不是現(xiàn)在大模型有上下文長度限制,豈不是一鍵輸出全文了?
咱認真研究了一下這個事,發(fā)現(xiàn)鍋一部分在科技公司頭上,另一部分在一個叫Books3的數(shù)據(jù)集上。
Books3是一個包含196640本txt的數(shù)據(jù)集,里面偷了不少盜版書。幾乎所有大模型都用它做訓練,不過數(shù)據(jù)集明面上很早就被下架,變成了不能說的秘密。
Paperwithcode網(wǎng)站上留存的Book3悼詞
很顯然,大家都用了Books3搞訓練,只不過有些大模型沒做好安全防御機制,才被抓住了把柄。
于是,經(jīng)常被gank的Meta又一次被13位作家送上了法庭。
沒經(jīng)我們允許,就拿我們的作品去訓練大模型。這回證據(jù)確鑿,還能一字不差吐出來,你認不認?
連一向討厭JK羅琳的吃瓜群眾也紛紛覺得,拿盜版書訓練模型就是侵權(quán),沒啥可洗的。
出乎所有人意料的是,Meta居然贏了官司??赐炅饲耙蚝蠊?,我們覺得版權(quán)方純粹是輸在了智商。。。
版權(quán)方提出的舉證,是Llama把書背出來,損害到了他們真書的銷量。
但要說現(xiàn)在,有人用大模型生成哈利波特直接當成電子書看,那也太高難了,不可能在市場上和真書產(chǎn)生競爭關(guān)系。
再看看Meta方的辯詞:美國版權(quán)法“允許未經(jīng)授權(quán),復制作品并將其轉(zhuǎn)化為新作品”,并且聊天機器人產(chǎn)生的人工智能表達,與訓練用的書籍有著根本的不同。
用人話講,科學的東西,你得看原理。大模型輸出的東西都是它學習理解再轉(zhuǎn)述出來的,就跟人讀書寫作似的,屬于“新作品”了。
最終法官表示,作者未能提供足夠證據(jù)證明,大模型會搶真書的份額,但用盜版訓練大模型,確實不地道。
意思就是,版權(quán)方論點對了,論據(jù)給錯了。
而版權(quán)方和大模型互撕,這不是第一次,肯定也不是最后一次。
2023年,紐約時報起訴OpenAI訓練集涉及侵權(quán)。近期,還有Reddit起訴Claude、迪士尼和環(huán)球聯(lián)合告Midjourney、作家組團和微軟Megatron打官司等等。。。
感覺一個大模型要是沒被告過,只能說明它做得太拉了,無人在意。
在雷區(qū)反復橫跳
那天天上法庭,科技公司就沒啥預防手段嗎?我們查了一下相關(guān)資料,發(fā)現(xiàn)為了不被告,有的公司選擇買斷網(wǎng)站數(shù)據(jù)庫,比如谷歌買斷Reddit數(shù)據(jù)包,而有的公司真是什么匪夷所思的事都做得出來。
舉個最近的例子,2024年Claude背后的Anthropic意識到使用盜版數(shù)據(jù)集的法律風險,于是花了數(shù)百萬美元購買實體圖書。
考慮到成本,收來的書里很多是二手,掃描入庫制成數(shù)據(jù)集后立刻銷毀。數(shù)據(jù)集只在公司內(nèi)部用于訓練,不可外傳。
這單純是為了迎合美國的首次銷售原則,只要你買了第一次,之后想怎么處理它都可以。
咱也不知道這些實體書里有沒有啥珍貴孤本,反正為了不侵權(quán),Anthropic沒坑儒,只焚書了。
這個舉動確實成為了Anthropic在法庭上的制勝一擊,但問題是,這么做真的合理嗎?
吃完這個瓜,我能理解為啥那么多版權(quán)方想手撕大模型,也能理解科技公司為啥非得干這么不地道的事兒。
從大模型訓練的角度,它無法避免對大量高質(zhì)量數(shù)據(jù)的需求,科技發(fā)展不等人,也沒有時間等待各種授權(quán)。它能做到最好的,也就是把侵權(quán)的內(nèi)容厚碼一下,盡量減小對正主的影響。
而從版權(quán)方的角度,大模型這樣發(fā)展下去,他們的利益遲早會被徹底侵犯。不止現(xiàn)在啃他們一口又一口,未來還可能被盜版訓練出來的模型取而代之。
這種不可調(diào)和的矛盾,造成為了形式正義而毀書一類的荒謬舉動。
只能說,爭取權(quán)益是必要的,但在這場爭端里,恐怕沒有真正的贏家。
中國特種兵出國當教官,老外為他破例造軍功章,拒聯(lián)合國高薪工作
不過嘞,等進了特種大隊呀,郭小俊這才曉得,不管是特種兵那訓練,還是自個兒武術(shù)上的訓練,嘿,其實那目的都差不多一個樣兒。嘿,在特種大隊那幾年呀,郭小俊那可又有了超級大的進步嘞,他把少林武術(shù)跟軍隊里的武術(shù)一結(jié)合,結(jié)果他還得了個“軍中功夫大王”的名號呢。嘿,你得曉得喲,郭小俊那可是在全軍最厲到此結(jié)束了?——。
曾任美國邁阿密當?shù)靥胤N兵教練的他,如今在鎮(zhèn)海做起了這件事!
這位面色紅潤、身材結(jié)實的河南小伙,話不多,今年32歲的他已經(jīng)在特戰(zhàn)旅當狙擊手教練5年了|。盧雪禮2005年入伍|。剛來部隊時,他在偵察連當偵察兵,2008年3月參加了沈陽軍區(qū)的比武,比武前改練的狙擊手__。2013年他來到了目前所在的特戰(zhàn)旅————?!爱斕胤N兵是我的夢想。從新兵開始,我每天都會在部隊還沒吹集合哨時,就起床跑等我繼續(xù)說。
特種兵特聘教練趙龍,苦練暗器絕技15年,繡花針百步穿楊
其三是當教練|。美國社會是不禁槍的,因此其國內(nèi)的射擊俱樂部多如牛毛,美軍特種兵大多有不錯的槍法,退役之后可以在這些射擊俱樂部當教練。同樣在一些其他的搏擊俱樂部之類也會有退役特種兵的身影;退役后的特種兵也可以選擇當警察,不過這需要相關(guān)的學歷才可以__。另外的一些具有領(lǐng)導能力的特種兵會選擇從政或者是經(jīng)商,這等會說_。
來源:紅網(wǎng)
作者:翁怡君
編輯:韶柔懷
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。