新智元報(bào)道
KingHZ
【新智元導(dǎo)讀】Meta超級(jí)智能團(tuán)隊(duì)成員畢樹超,回溯70年AI進(jìn)化:從AlexNet掀起深度學(xué)習(xí)革命,到Transformer與ScalingLaw驅(qū)動(dòng)大模型爆發(fā),再到強(qiáng)化學(xué)習(xí)+預(yù)訓(xùn)練通向AGI。他相信智能并非人類都獨(dú)有,AGI曙光已現(xiàn)!
加入Meta超級(jí)智能實(shí)驗(yàn)室后,畢樹超首次發(fā)聲:大多數(shù)人可能低估了AI的影響!
十年前,他非常懷疑AGI,但在過(guò)去十年中,他逐漸接受了AGI,日漸篤定,甚至宣稱:2025,AGI已來(lái)。
上個(gè)月,他在哥倫比亞大學(xué)和哈佛大學(xué)就人工智能發(fā)表了兩次演講。
許多參加的人都后來(lái)聯(lián)系他,聲稱這次演講改變了他們的AI觀念。
在題為《推進(jìn)硅基智能前沿:過(guò)去、開放問(wèn)題與未來(lái)》的演講中,畢樹超系統(tǒng)闡述了過(guò)去15年的技術(shù)進(jìn)展、當(dāng)前待解難題以及未來(lái)發(fā)展趨勢(shì)
目前,他在Meta從事強(qiáng)化學(xué)習(xí)/后訓(xùn)練/智能體研究。之前,他在OpenAI領(lǐng)導(dǎo)多模態(tài)研究;他還是YouTubeShorts的主要負(fù)責(zé)人。
他本科從浙江大學(xué)數(shù)學(xué)專業(yè)畢業(yè),之后在加州大學(xué)伯克利分校獲得統(tǒng)計(jì)學(xué)碩士和數(shù)學(xué)博士學(xué)位。
AGI曙光
最近,DavidSilver等人發(fā)表了《WelcometotheEraofExperience》。
他們的核心觀點(diǎn)是:高質(zhì)量的人類數(shù)據(jù)非常稀缺。
盡管人類文明已有幾千年,但真正積累的高質(zhì)量數(shù)據(jù)并不多,而且大部分文本快消耗殆盡。
所以問(wèn)題是:如何生成更多的數(shù)據(jù)?
答案可能在于人類本身。人類的數(shù)據(jù)來(lái)源于人腦的思考,以及從真實(shí)環(huán)境中獲得的反饋和獎(jiǎng)勵(lì)。
算力正在變得越來(lái)越廉價(jià),計(jì)算機(jī)與環(huán)境的交互或許可自動(dòng)生成新的知識(shí)與數(shù)據(jù)。這種方式將可能比人類自身產(chǎn)生數(shù)據(jù)的速度更快。
這也是為什么畢樹超如此看好通用人工智能(AGI)和超人工智能(ArtificialSuperintelligence,ASI)的原因。
他分享了個(gè)人對(duì)AGI研究的心路歷程。
一開始對(duì)通用人工智能持懷疑態(tài)度,因?yàn)檫@個(gè)領(lǐng)域存在大量炒作。
對(duì)他個(gè)人來(lái)說(shuō),最大的障礙是他曾堅(jiān)定地相信:人腦是特別的,人類智能是獨(dú)一無(wú)二的。
畢竟,目前許多技術(shù),從數(shù)學(xué)角度來(lái)看,只不過(guò)改進(jìn)了Tensor運(yùn)算和梯度優(yōu)化,本質(zhì)上并不復(fù)雜。他不禁懷疑:人類真的那么難以復(fù)制嗎?
但隨著對(duì)AI理解的加深,他開始意識(shí)到:模擬人腦的方式不止一種。如果能夠用計(jì)算機(jī)模仿人類的學(xué)習(xí)方式,那為什么不這樣做呢?
這就是他如今更加相信AGI的原因:
一方面,也許大腦并不是獨(dú)一無(wú)二的,它只是生物進(jìn)化的結(jié)果。雖然復(fù)雜,但歸根結(jié)底它也不過(guò)是一臺(tái)「生物計(jì)算機(jī)」,并不比硅基計(jì)算機(jī)更神秘。
另一方面,也許真正關(guān)鍵的因素不是結(jié)構(gòu)的復(fù)雜程度,而是系統(tǒng)是否具備足夠的規(guī)模。
AI雙城記
在哥倫比亞大學(xué),他追溯了人工智能(AI)的思想根源。
這一切都始于1948-1950年左右。
當(dāng)時(shí),AlanTuring提出了一個(gè)問(wèn)題:機(jī)器能思考嗎?
圖靈提出,人工智能不應(yīng)試圖模仿成人的大腦(包含復(fù)雜的經(jīng)驗(yàn)和偏見),而應(yīng)設(shè)計(jì)一個(gè)簡(jiǎn)單的模型,盡量減少人為預(yù)設(shè)的結(jié)構(gòu),讓模型通過(guò)數(shù)據(jù)自主學(xué)習(xí)。
畢樹超對(duì)觀眾說(shuō):「這正是機(jī)器學(xué)習(xí)的核心。你構(gòu)建一個(gè)幾乎不含人類先驗(yàn)知識(shí)的系統(tǒng),讓它從數(shù)據(jù)中學(xué)習(xí)?!?/p>
他重點(diǎn)講了自監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
他回顧了自監(jiān)督學(xué)習(xí)、深度網(wǎng)絡(luò)以及像Transformer這樣的里程碑式架構(gòu)的興起。
他展示了計(jì)算能力和數(shù)據(jù)規(guī)模的提升(而非人工編碼的知識(shí))如何帶來(lái)性能的飛躍。
自監(jiān)督學(xué)習(xí)
2012年,出現(xiàn)了AlexNet。
基本上可以說(shuō),這是第一個(gè)大規(guī)模深度學(xué)習(xí)模型,使用了GPU和大量數(shù)據(jù)。
AlexNet錯(cuò)誤率令人驚嘆,性能之好史無(wú)前例。
從中,大家得到了一個(gè)啟示:只要有足夠的數(shù)據(jù)和計(jì)算能力,神經(jīng)網(wǎng)絡(luò)就會(huì)超越人類過(guò)去幾十年手工設(shè)計(jì)的視覺算法。
在當(dāng)時(shí),對(duì)于從事視覺研究的研究人員來(lái)說(shuō),是一場(chǎng)災(zāi)難,幾十年付諸東流。
這重新喚起了人們對(duì)神經(jīng)網(wǎng)絡(luò)的興趣,深度學(xué)習(xí)革命開始了。
大多數(shù)人認(rèn)為2012年標(biāo)志著深度學(xué)習(xí)革命的開始。
然后到了2013年,谷歌發(fā)表了Word2Vec。
簡(jiǎn)單來(lái)說(shuō),「Word2Vec」用一個(gè)嵌入向量,來(lái)表示單詞。
從此,單詞可以進(jìn)行算術(shù)運(yùn)算,比如「king-man=queen-woman」。
向量運(yùn)算竟然能捕捉語(yǔ)義關(guān)系!更關(guān)鍵的是,這些詞嵌入在下游任務(wù)中表現(xiàn)驚人。
這引發(fā)了另外兩個(gè)趨勢(shì):
(1)Word2Vec演變到一切皆可向量化(everything2Vec)。
(2)強(qiáng)化了計(jì)算+數(shù)據(jù)的優(yōu)勢(shì),這種結(jié)合遠(yuǎn)比歸納偏差表現(xiàn)要好。
這回應(yīng)了圖靈的設(shè)想:我們不想模擬成人的大腦,這意味著我們不希望在模型中加入人類的歸納偏差。
2014年,生成模型GAN出現(xiàn)了。
GAN在生成領(lǐng)域石破天驚,但與自監(jiān)督學(xué)習(xí)關(guān)系不大
2015年,深度學(xué)習(xí)「加速器」Adam優(yōu)化器已經(jīng)誕生了,開始流行。
它標(biāo)準(zhǔn)化了訓(xùn)練流程,終于不用再手工調(diào)參了!特別適合處理海量數(shù)據(jù)和稀疏梯度,直到今天大多數(shù)優(yōu)化器都是Adam的變種。
同年的ResNet更是神來(lái)之筆!
當(dāng)時(shí)深層網(wǎng)絡(luò)訓(xùn)練就像走鋼絲——梯度要么消失要么爆炸。而ResNet的「跳躍連接」(skipconnection)就像給神經(jīng)網(wǎng)絡(luò)裝了電梯:淺層特征可以直接跨層傳輸。
殘差連接讓優(yōu)化變得非常容易:右圖(a)沒有殘差連接時(shí)崎嶇不平,(b)引入殘差后如瓷碗一般平滑。
如果采用這種結(jié)構(gòu),可以確保學(xué)習(xí)起來(lái)容易得多。而且這種技巧幾乎適用于所有網(wǎng)絡(luò)架構(gòu)。這就是為什么現(xiàn)在幾乎所有網(wǎng)絡(luò)都采用這種結(jié)構(gòu)。
不過(guò)當(dāng)年,很多數(shù)學(xué)背景的人都質(zhì)疑過(guò)深度學(xué)習(xí)中的這類技巧。
豁然開朗
演講的前一天,畢樹超和物理教授聊天才意識(shí)到:在低維空間建立的統(tǒng)計(jì)直覺,在萬(wàn)億參數(shù)的高維空間根本不適用!
原因是大家都生活在低維空間中,低維度的直覺難以推廣到高維空間。
畢樹超花了好幾年才克服了這些錯(cuò)誤的直觀。
他之所以困惑一大原因在于深度神經(jīng)網(wǎng)絡(luò)需要的是非凸優(yōu)化(non-convexoptimization)。
當(dāng)處理非凸優(yōu)化時(shí),首先擔(dān)心是陷入隨機(jī)的局部最小值。如果最好的結(jié)果不過(guò)是隨機(jī)的局部最小值,怎么能信任結(jié)果呢?然后,有很多關(guān)于這個(gè)的研究。
讓他重拾信心的第一個(gè)發(fā)現(xiàn)是:在高維空間里,陷入局部最優(yōu)其實(shí)非常難。在三維世界看二維曲面時(shí),局部極小值確實(shí)像深坑難爬出來(lái)。但在十億維空間里,有無(wú)數(shù)個(gè)逃生通道!
第二個(gè)發(fā)現(xiàn)更妙:就算被困住,這些「局部極小值」其實(shí)離全局最優(yōu)根本不遠(yuǎn)!
所以現(xiàn)在沒人再糾結(jié)非凸優(yōu)化問(wèn)題了。
那再說(shuō)個(gè)更顛覆的現(xiàn)象——過(guò)參數(shù)不會(huì)帶來(lái)過(guò)擬合。
在傳統(tǒng)的統(tǒng)計(jì)分析領(lǐng)域中,如果參數(shù)數(shù)量大于數(shù)據(jù)點(diǎn)數(shù)量,那是一場(chǎng)災(zāi)難。從理論上講,這會(huì)導(dǎo)致過(guò)擬合。
但深度學(xué)習(xí)模型參數(shù)動(dòng)不動(dòng)就是樣本量的百倍!
作為數(shù)學(xué)統(tǒng)計(jì)雙背景的人,這曾讓他困惑不已、夜不能寐...
直到發(fā)現(xiàn):即便用隨機(jī)標(biāo)簽訓(xùn)練,網(wǎng)絡(luò)也會(huì)優(yōu)先學(xué)習(xí)真實(shí)模式,
這就是著名的「雙下降現(xiàn)象」:當(dāng)過(guò)參數(shù)化模型達(dá)到插值點(diǎn)后,會(huì)進(jìn)入廣闊的零損失解空間,并自動(dòng)選擇泛化性最優(yōu)的解。
現(xiàn)在,終于可以說(shuō):過(guò)參數(shù)化不是bug,是feature!
ChatGPT前傳
2014年,出現(xiàn)了第一篇關(guān)于注意力機(jī)制的論文。
從2014年到2016年,當(dāng)時(shí)的主要挑戰(zhàn)是,這些模型很難并行訓(xùn)練,以及梯度消失。
LSTM有所幫助,但也沒有完全解決問(wèn)題。
然后,Transformer就出現(xiàn)了。
這是過(guò)去十年中最重要的論文之一。它完全消除了遞歸,完全依賴于自注意力。
Transformer是一個(gè)轉(zhuǎn)折點(diǎn),優(yōu)雅地解決了之前的局限性。
畢樹超盛贊:「這是過(guò)去十年最重要的架構(gòu)。它高度可并行化、數(shù)據(jù)效率高,并且擴(kuò)展性極佳?!?/p>
2018年,出現(xiàn)了GPT-1。2019年,出現(xiàn)了GPT-2。2020年,出現(xiàn)了GPT-3。
畢樹超認(rèn)為GenAI的本質(zhì)通用性(generalizable)。
以前,只要有數(shù)據(jù),每個(gè)領(lǐng)域都可以構(gòu)建一個(gè)專門的模型。這并不具備可擴(kuò)展性。而GPT系列模型非常通用,可以通過(guò)零樣本或少樣本學(xué)習(xí)完成任務(wù)。
2020年,ScalingLaw論文揭示驚人規(guī)律:算力、參數(shù)量、數(shù)據(jù)量每增加10倍,損失函數(shù)就線性下降!
這個(gè)定律精準(zhǔn)預(yù)測(cè)了GPT-4的性能。雖然它終將觸及天花板,但在此之前,10萬(wàn)億美元級(jí)的算力投入都將持續(xù)獲得回報(bào)!
這也是《TheBitterLesson》這篇雄文的核心:70年AI史就是「算力碾壓人類精巧設(shè)計(jì)的算法」的歷史!
當(dāng)然,作為數(shù)學(xué)系畢業(yè)生的畢樹超總在追問(wèn)scaling的源頭——或許答案藏在數(shù)據(jù)分布的本征結(jié)構(gòu)中。
ScalingLaw如何讓模型頓悟?
看看數(shù)據(jù)分布:頂尖醫(yī)生解決罕見病,普通醫(yī)生處理常見??;
算術(shù)書籍浩如煙海,代數(shù)幾何專著卻鳳毛麟角。
智能的分布恰如冪律曲線!
Scalinglaw的本質(zhì)或許在此:每挖掘高一個(gè)數(shù)量級(jí)的「智能稀有度」,就需要十倍算力投入!
這解釋了為何模型總先學(xué)通用模式。
三年前,全網(wǎng)爭(zhēng)論的「能力涌現(xiàn)」,其實(shí)只是冪律數(shù)據(jù)遇到對(duì)數(shù)坐標(biāo)的視覺把戲!
當(dāng)算力突破臨界點(diǎn),AI「突然」學(xué)會(huì)微積分不過(guò)是捕獲了數(shù)據(jù)長(zhǎng)尾中的高階模式!
這只是一個(gè)視角問(wèn)題。它并不是突然出現(xiàn)的,它實(shí)際上只是反映了底層數(shù)據(jù)。
Ilya有一句名言:「模型只是想學(xué)習(xí)?!?/p>
Transformer架構(gòu)終于讓AI回歸本能:吃數(shù)據(jù),吐智能!。
過(guò)去十年,我們逐漸打破了很多對(duì)機(jī)器學(xué)習(xí)的誤解。如今,主流觀點(diǎn)是:預(yù)測(cè)本身的壓縮,其實(shí)等同于理解,甚至是智能的體現(xiàn)。
從信息論的角度來(lái)看,Shannon把「信息」定義為「不可預(yù)測(cè)性」。「智能」可以理解為:讓這個(gè)世界變得越來(lái)越不讓你感到驚訝的能力。
從這個(gè)意義上看,大語(yǔ)言模型在預(yù)測(cè)下一個(gè)詞時(shí),其實(shí)是在壓縮語(yǔ)言中的各種模式。這正是人類理解世界的方式之一。
從認(rèn)知科學(xué)的角度,人類的學(xué)習(xí)過(guò)程本質(zhì)上也是壓縮過(guò)程。物理定律、數(shù)學(xué)公理等方式把世界的觀察總結(jié)成最小的一組規(guī)則。
因此,從信息到學(xué)習(xí),從預(yù)測(cè)到理解,「壓縮」是背后共同的核心邏輯。
強(qiáng)化學(xué)習(xí)
整個(gè)深度強(qiáng)化學(xué)習(xí)從2015年開始。
當(dāng)時(shí),出現(xiàn)了DQN網(wǎng)絡(luò)。它可以玩多種雅達(dá)利游戲,玩得比人類好多了。
這些模型發(fā)現(xiàn)了很多人類想不到的策略,因此人們稱之為「外星智能」(alienintelligence)。
真正的核爆點(diǎn)在圍棋上。AlphaGo的表現(xiàn)讓人們第一次意識(shí)到:「這些模型真的有智能?!?/p>
AlphaGo起初是從人類棋譜中訓(xùn)練起來(lái)的,它結(jié)合了深度神經(jīng)網(wǎng)絡(luò)、、自我博弈(self-play)和蒙特卡洛樹搜索(MonteCarloTreeSearch),最終擊敗了世界冠軍。
到了2017年,AlphaGoZero出現(xiàn)了。模型進(jìn)一步升級(jí),完全不再依賴人類數(shù)據(jù),所有訓(xùn)練都來(lái)自自我對(duì)弈,堪稱「AI界周伯通」!
2018年,AlphaZero再進(jìn)一步。
2019年,強(qiáng)化學(xué)習(xí)擴(kuò)展到了電子游戲,比如《星際爭(zhēng)霸》。
但這股熱潮很快退卻了,因?yàn)槿藗儼l(fā)現(xiàn):AI雖然能「打游戲」,卻在現(xiàn)實(shí)中沒有太大用處。
直到強(qiáng)化學(xué)習(xí)與預(yù)訓(xùn)練模型結(jié)合,這一切才真正發(fā)生了變化,開啟了「預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)結(jié)合的新時(shí)代」。
低算力RL
比如2022年的InstructGPT,它讓大語(yǔ)言模型不僅僅是「自動(dòng)補(bǔ)全工具」,而是能夠理解和執(zhí)行人類指令。
而2022年發(fā)布的ChatGPT,更是通過(guò)強(qiáng)化學(xué)習(xí)(特別是人類反饋強(qiáng)化學(xué)習(xí),RLHF)進(jìn)一步提升了交互能力。
當(dāng)時(shí),這個(gè)項(xiàng)目只是JohnSchulman等人的一個(gè)低調(diào)研究預(yù)覽。誰(shuí)曾想,它如今每周有超過(guò)5億用戶使用,徹底改變了人們獲取信息的方式。
但仔細(xì)一想,這跟之前提到的「游戲里的強(qiáng)化學(xué)習(xí)」到底有什么不同呢?
強(qiáng)化學(xué)習(xí)+預(yù)訓(xùn)練模型,可以應(yīng)用到現(xiàn)實(shí)中更廣泛、更有價(jià)值的場(chǎng)景中。
關(guān)于當(dāng)前AI模型的訓(xùn)練方式,強(qiáng)化學(xué)習(xí)所占的計(jì)算資源比例其實(shí)非常小,就像蛋糕上點(diǎn)綴的櫻桃。
但未來(lái)如果要構(gòu)建真正的AGI乃至ASI,強(qiáng)化學(xué)習(xí)必須發(fā)揮更大的作用,尤其是在適應(yīng)未知環(huán)境方面。
高算力RL
在過(guò)去六七十年的AI發(fā)展中,有兩類技術(shù)最能隨著算力增長(zhǎng)而不斷進(jìn)步:
「學(xué)習(xí)」:也就是預(yù)訓(xùn)練;
「搜索」:通過(guò)策略探索獲得新解。
而「搜索」這一方向,目前還遠(yuǎn)遠(yuǎn)不夠好。
這也是為什么我們要進(jìn)入AI發(fā)展的「第二階段范式」:讓預(yù)訓(xùn)練與高計(jì)算量強(qiáng)化學(xué)習(xí)真正結(jié)合起來(lái)。
從2014年的o系列模型開始,這種趨勢(shì)已經(jīng)出現(xiàn)。
在數(shù)學(xué)基準(zhǔn)上AIME中的表現(xiàn),開源的DeepSeekR1已經(jīng)超過(guò)o1。
這并不是一件簡(jiǎn)單的事,它代表了全新的計(jì)算范式:「高算力RL」。
這種范式然顯著增強(qiáng)了模型的「?jìng)€(gè)體學(xué)習(xí)」能力。
雖然問(wèn)題還有很多值得探索,但畢樹超在演講中表示:「每隔幾個(gè)月,我們就看到一些曾經(jīng)被認(rèn)為不可能的事情成為現(xiàn)實(shí)。這應(yīng)該讓我們重新審視所有我們?nèi)匀徽J(rèn)為不可能的事情?!?/p>
也許很多我們以為的不可能,其實(shí)只是知識(shí)的局限。
參考資料:
https://youtu.be/E22AOHAEtu4
https://www.linkedin.com/feed/update/urn:li:activity:7336814222590341120/
https://x.com/shuchaobi/status/1949493389894058487
https://www.engineering.columbia.edu/about/news/exploring-past-and-future-ai
眾多精美榮譽(yù)證書、獎(jiǎng)狀模板及稱號(hào),附可編輯電子版
初始電子證書系統(tǒng)
快來(lái)投票!模范單位網(wǎng)絡(luò)評(píng)選火熱開啟,等你參與!
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。