志在“超級智能”的Meta無疑成為了當下硅谷的“風暴眼”,AI科學家的“轉會費”更是已經媲美足球明星,其中最出名的莫過于以2億美元身價加盟Meta的蘋果基礎模型團隊負責人龐若鳴(RuomingPang)。
日前,蘋果方面公開了龐若鳴在該公司的最后一份成果《AppleIntelligenceFoundationLanguageModels–TechReport2025》,展示了他們在進入2025年后在基礎模型領域的技術革新。
在這篇論文中顯示,他們繼續(xù)打磨端云協(xié)同的混合模型,使得30億參數(shù)的端側模型AppleOn-Device內存占用降低約37.5%,使得iPhone在不增加內存的情況下,可以允許用戶在運行端側模型的同時打開更多應用。而云端的AppleServer模型則獲得了“并行軌道混合專家”,讓模型在保持智能水平的同時提升了效率與擴展能力。
除了關于模型本身的技術解析,蘋果在這一論文中最大的亮點,莫過于AppleIntelligence的訓練并未使用任何非法從網(wǎng)絡抓取的數(shù)據(jù)。蘋果方面強調其訓練數(shù)據(jù)包括獲得授權的數(shù)據(jù)、公開或開源數(shù)據(jù)集,以及通過Applebot網(wǎng)絡爬蟲抓取的公開信息。而對于明確反對數(shù)據(jù)抓取的出版商,則承諾不會抓取其內容。
要知道,隨著美國的加州法院裁定AI初創(chuàng)企業(yè)Anthropic使用受版權保護的作品來訓練AI大模型符合“合理使用原則”(fairuse),解除了桎梏的AI廠商幾乎就變成了“出籠猛虎”。合理使用原則在二十余年前曾經庇護了互聯(lián)網(wǎng)產業(yè),現(xiàn)在又輪到AI行業(yè)。
可是同樣都是“合理使用”版權內容,在版權方的視角下,AI行業(yè)的破壞力顯然更強,因為互聯(lián)網(wǎng)萌芽時期的上世紀90年代和互聯(lián)網(wǎng)高度發(fā)達的當下,社會信息化水平已經不可同日而語。一個最典型的例子就是掃描圖書資源、并將其電子化的谷歌數(shù)字圖書館項目,互聯(lián)網(wǎng)廠商最初想要合理使用版權內容都還需要花費一番功夫。
可隨著互聯(lián)網(wǎng)經濟的發(fā)展,在信息交換效率快速提升的誘惑下,版權方紛紛開啟了數(shù)字化轉型,將自己的內容搬到互聯(lián)網(wǎng)上。版權方這一操作固然會讓內容得以傳播到地球的各個角落,但同樣也將其暴露在了AI廠商的爬蟲面前。
但由于技術水平的巨大差異,版權方面對AI爬蟲時幾乎無計可施,可偏偏如今法院又站在了AI廠商這邊。這時候蘋果站出來與其他AI廠商劃清界限,就成為了業(yè)界難得的清流,他們表示“我們將繼續(xù)遵循最佳的倫理抓取實踐,包括遵守廣泛采用的robots.txt協(xié)議,允許網(wǎng)頁所有者選擇是否讓他們的內容被用于訓練蘋果的生成式基礎模型?!?/p>
不僅如此,蘋果還承諾網(wǎng)站方不需要擔心拒絕Applebot會被“穿小鞋”,因為“網(wǎng)頁所有者對Applebot可以訪問哪些頁面以及如何使用這些頁面擁有細致的控制,同時這些頁面仍然能出現(xiàn)在Siri和Spotlight的搜索結果中?!?/p>
顯而易見的是,蘋果的這一聲明將會幫助他們在版權方面前贏得不少印象分。
然而在AI從業(yè)者看來,蘋果的這個說法其實是在給自己開脫,并為其在AI領域可能要長期處于追趕狀態(tài)打預防針。有一個業(yè)內人士才知道的秘密,是AI大模型相關技術之所以會在2023、2024年狂飆突進,并且大模型的性能實現(xiàn)了跨越式增長,其實是AI廠商一口氣消化了互聯(lián)網(wǎng)世界過去三十年積累的結果。
CommonCrawl、ThePile、維基百科等公開或開源數(shù)據(jù)集,如今早已被AI廠商嚼成了“甘蔗渣”,蘋果實際上強調的是使用了“獲得授權的數(shù)據(jù)”。從某種意義上來說,蘋果這篇論文中透露的“尊重出版商權益”是好事,可問題在于不是每一個出版商都愿意給予蘋果尊重自己的機會。
在人類目前已有的開源數(shù)據(jù)集幾乎都被應用于AI大模型的預訓練后,蘋果就只能指望各大出版商新產出的內容。那么哪些出版商會愿意其數(shù)據(jù)被抓取用于AI訓練呢?
先來看看互聯(lián)網(wǎng)內容平臺,現(xiàn)在除了Reddit之外,全球主流平臺幾乎都有AI業(yè)務,比如馬斯克的X有xAI,Instagram、Facebook、Thread是Meta旗下的產品,而YouTube背后則是谷歌。
傳統(tǒng)出版商的情況更加復雜,由于AI助手從搜索引擎手中分走了流量,以及AI重新整合內容的特性,許多出版商對于AI重塑其新聞編輯和新聞采集的方式越來越感到不安??吹竭@里,有的朋友可能會有疑問了,因為新聞集團、AxelSpringer、康泰納仕和美聯(lián)社等重量級新聞出版商不是與OpenAI達成了協(xié)議。
但OpenAI是OpenAI、蘋果是蘋果,兩者不可混為一談。這些因為作品被不問自取而感到憤怒的出版商,其實是不得不接受OpenAI的事后補償。需要注意的是,隨著谷歌以AIMode為支點對谷歌搜索引擎進行改造,如今搜索市場已經變天。AIMode的出現(xiàn)讓用戶無需點擊鏈接即可獲取所需信息,此舉也被視為谷歌逐步降低對外部網(wǎng)站的引流力度。
AIMode減少了用戶對于網(wǎng)站的訪問,進而就會降低出版商的廣告變現(xiàn)能力。OpenAI則敏銳洞察到了搜索市場的“權力真空”,SearchGPT的出現(xiàn)給了出版商一個谷歌搜索的替代選項,但蘋果現(xiàn)在可沒有這個籌碼,畢竟Spotlight作為搜索引擎都很勉強,更遑論AI搜索了。
缺乏獲得授權數(shù)據(jù)籌碼的情況下,公開數(shù)據(jù)又已經被消耗殆盡,所以蘋果的這個聲明似乎并不具備太多現(xiàn)實意義,而更像是一個“免責聲明”。
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。