志在“超級智能”的Meta無疑成為了當下硅谷的“風(fēng)暴眼”,AI科學(xué)家的“轉(zhuǎn)會費”更是已經(jīng)媲美足球明星,其中最出名的莫過于以2億美元身價加盟Meta的蘋果基礎(chǔ)模型團隊負責(zé)人龐若鳴(RuomingPang)。
日前,蘋果方面公開了龐若鳴在該公司的最后一份成果《AppleIntelligenceFoundationLanguageModels–TechReport2025》,展示了他們在進入2025年后在基礎(chǔ)模型領(lǐng)域的技術(shù)革新。
在這篇論文中顯示,他們繼續(xù)打磨端云協(xié)同的混合模型,使得30億參數(shù)的端側(cè)模型AppleOn-Device內(nèi)存占用降低約37.5%,使得iPhone在不增加內(nèi)存的情況下,可以允許用戶在運行端側(cè)模型的同時打開更多應(yīng)用。而云端的AppleServer模型則獲得了“并行軌道混合專家”,讓模型在保持智能水平的同時提升了效率與擴展能力。
除了關(guān)于模型本身的技術(shù)解析,蘋果在這一論文中最大的亮點,莫過于AppleIntelligence的訓(xùn)練并未使用任何非法從網(wǎng)絡(luò)抓取的數(shù)據(jù)。蘋果方面強調(diào)其訓(xùn)練數(shù)據(jù)包括獲得授權(quán)的數(shù)據(jù)、公開或開源數(shù)據(jù)集,以及通過Applebot網(wǎng)絡(luò)爬蟲抓取的公開信息。而對于明確反對數(shù)據(jù)抓取的出版商,則承諾不會抓取其內(nèi)容。
要知道,隨著美國的加州法院裁定AI初創(chuàng)企業(yè)Anthropic使用受版權(quán)保護的作品來訓(xùn)練AI大模型符合“合理使用原則”(fairuse),解除了桎梏的AI廠商幾乎就變成了“出籠猛虎”。合理使用原則在二十余年前曾經(jīng)庇護了互聯(lián)網(wǎng)產(chǎn)業(yè),現(xiàn)在又輪到AI行業(yè)。
可是同樣都是“合理使用”版權(quán)內(nèi)容,在版權(quán)方的視角下,AI行業(yè)的破壞力顯然更強,因為互聯(lián)網(wǎng)萌芽時期的上世紀90年代和互聯(lián)網(wǎng)高度發(fā)達的當下,社會信息化水平已經(jīng)不可同日而語。一個最典型的例子就是掃描圖書資源、并將其電子化的谷歌數(shù)字圖書館項目,互聯(lián)網(wǎng)廠商最初想要合理使用版權(quán)內(nèi)容都還需要花費一番功夫。
可隨著互聯(lián)網(wǎng)經(jīng)濟的發(fā)展,在信息交換效率快速提升的誘惑下,版權(quán)方紛紛開啟了數(shù)字化轉(zhuǎn)型,將自己的內(nèi)容搬到互聯(lián)網(wǎng)上。版權(quán)方這一操作固然會讓內(nèi)容得以傳播到地球的各個角落,但同樣也將其暴露在了AI廠商的爬蟲面前。
但由于技術(shù)水平的巨大差異,版權(quán)方面對AI爬蟲時幾乎無計可施,可偏偏如今法院又站在了AI廠商這邊。這時候蘋果站出來與其他AI廠商劃清界限,就成為了業(yè)界難得的清流,他們表示“我們將繼續(xù)遵循最佳的倫理抓取實踐,包括遵守廣泛采用的robots.txt協(xié)議,允許網(wǎng)頁所有者選擇是否讓他們的內(nèi)容被用于訓(xùn)練蘋果的生成式基礎(chǔ)模型?!?/p>
不僅如此,蘋果還承諾網(wǎng)站方不需要擔心拒絕Applebot會被“穿小鞋”,因為“網(wǎng)頁所有者對Applebot可以訪問哪些頁面以及如何使用這些頁面擁有細致的控制,同時這些頁面仍然能出現(xiàn)在Siri和Spotlight的搜索結(jié)果中。”
顯而易見的是,蘋果的這一聲明將會幫助他們在版權(quán)方面前贏得不少印象分。
然而在AI從業(yè)者看來,蘋果的這個說法其實是在給自己開脫,并為其在AI領(lǐng)域可能要長期處于追趕狀態(tài)打預(yù)防針。有一個業(yè)內(nèi)人士才知道的秘密,是AI大模型相關(guān)技術(shù)之所以會在2023、2024年狂飆突進,并且大模型的性能實現(xiàn)了跨越式增長,其實是AI廠商一口氣消化了互聯(lián)網(wǎng)世界過去三十年積累的結(jié)果。
CommonCrawl、ThePile、維基百科等公開或開源數(shù)據(jù)集,如今早已被AI廠商嚼成了“甘蔗渣”,蘋果實際上強調(diào)的是使用了“獲得授權(quán)的數(shù)據(jù)”。從某種意義上來說,蘋果這篇論文中透露的“尊重出版商權(quán)益”是好事,可問題在于不是每一個出版商都愿意給予蘋果尊重自己的機會。
在人類目前已有的開源數(shù)據(jù)集幾乎都被應(yīng)用于AI大模型的預(yù)訓(xùn)練后,蘋果就只能指望各大出版商新產(chǎn)出的內(nèi)容。那么哪些出版商會愿意其數(shù)據(jù)被抓取用于AI訓(xùn)練呢?
先來看看互聯(lián)網(wǎng)內(nèi)容平臺,現(xiàn)在除了Reddit之外,全球主流平臺幾乎都有AI業(yè)務(wù),比如馬斯克的X有xAI,Instagram、Facebook、Thread是Meta旗下的產(chǎn)品,而YouTube背后則是谷歌。
傳統(tǒng)出版商的情況更加復(fù)雜,由于AI助手從搜索引擎手中分走了流量,以及AI重新整合內(nèi)容的特性,許多出版商對于AI重塑其新聞編輯和新聞采集的方式越來越感到不安。看到這里,有的朋友可能會有疑問了,因為新聞集團、AxelSpringer、康泰納仕和美聯(lián)社等重量級新聞出版商不是與OpenAI達成了協(xié)議。
但OpenAI是OpenAI、蘋果是蘋果,兩者不可混為一談。這些因為作品被不問自取而感到憤怒的出版商,其實是不得不接受OpenAI的事后補償。需要注意的是,隨著谷歌以AIMode為支點對谷歌搜索引擎進行改造,如今搜索市場已經(jīng)變天。AIMode的出現(xiàn)讓用戶無需點擊鏈接即可獲取所需信息,此舉也被視為谷歌逐步降低對外部網(wǎng)站的引流力度。
AIMode減少了用戶對于網(wǎng)站的訪問,進而就會降低出版商的廣告變現(xiàn)能力。OpenAI則敏銳洞察到了搜索市場的“權(quán)力真空”,SearchGPT的出現(xiàn)給了出版商一個谷歌搜索的替代選項,但蘋果現(xiàn)在可沒有這個籌碼,畢竟Spotlight作為搜索引擎都很勉強,更遑論AI搜索了。
缺乏獲得授權(quán)數(shù)據(jù)籌碼的情況下,公開數(shù)據(jù)又已經(jīng)被消耗殆盡,所以蘋果的這個聲明似乎并不具備太多現(xiàn)實意義,而更像是一個“免責(zé)聲明”。
推兩部長篇古言小說,越看越欲罷不能,一個禮拜不跳章的看完了!
言情小說《新唐遺玉》如何 一枝獨秀到如今?
完結(jié)不等更,5本穿越重生、古典架空、宮斗古代言情小說