新智元報道
KingHZ
【新智元導(dǎo)讀】Meta超級智能團(tuán)隊(duì)成員畢樹超,回溯70年AI進(jìn)化:從AlexNet掀起深度學(xué)習(xí)革命,到Transformer與ScalingLaw驅(qū)動大模型爆發(fā),再到強(qiáng)化學(xué)習(xí)+預(yù)訓(xùn)練通向AGI。他相信智能并非人類都獨(dú)有,AGI曙光已現(xiàn)!
加入Meta超級智能實(shí)驗(yàn)室后,畢樹超首次發(fā)聲:大多數(shù)人可能低估了AI的影響!
十年前,他非常懷疑AGI,但在過去十年中,他逐漸接受了AGI,日漸篤定,甚至宣稱:2025,AGI已來。
上個月,他在哥倫比亞大學(xué)和哈佛大學(xué)就人工智能發(fā)表了兩次演講。
許多參加的人都后來聯(lián)系他,聲稱這次演講改變了他們的AI觀念。
在題為《推進(jìn)硅基智能前沿:過去、開放問題與未來》的演講中,畢樹超系統(tǒng)闡述了過去15年的技術(shù)進(jìn)展、當(dāng)前待解難題以及未來發(fā)展趨勢
目前,他在Meta從事強(qiáng)化學(xué)習(xí)/后訓(xùn)練/智能體研究。之前,他在OpenAI領(lǐng)導(dǎo)多模態(tài)研究;他還是YouTubeShorts的主要負(fù)責(zé)人。
他本科從浙江大學(xué)數(shù)學(xué)專業(yè)畢業(yè),之后在加州大學(xué)伯克利分校獲得統(tǒng)計學(xué)碩士和數(shù)學(xué)博士學(xué)位。
AGI曙光
最近,DavidSilver等人發(fā)表了《WelcometotheEraofExperience》。
他們的核心觀點(diǎn)是:高質(zhì)量的人類數(shù)據(jù)非常稀缺。
盡管人類文明已有幾千年,但真正積累的高質(zhì)量數(shù)據(jù)并不多,而且大部分文本快消耗殆盡。
所以問題是:如何生成更多的數(shù)據(jù)?
答案可能在于人類本身。人類的數(shù)據(jù)來源于人腦的思考,以及從真實(shí)環(huán)境中獲得的反饋和獎勵。
算力正在變得越來越廉價,計算機(jī)與環(huán)境的交互或許可自動生成新的知識與數(shù)據(jù)。這種方式將可能比人類自身產(chǎn)生數(shù)據(jù)的速度更快。
這也是為什么畢樹超如此看好通用人工智能(AGI)和超人工智能(ArtificialSuperintelligence,ASI)的原因。
他分享了個人對AGI研究的心路歷程。
一開始對通用人工智能持懷疑態(tài)度,因?yàn)檫@個領(lǐng)域存在大量炒作。
對他個人來說,最大的障礙是他曾堅定地相信:人腦是特別的,人類智能是獨(dú)一無二的。
畢竟,目前許多技術(shù),從數(shù)學(xué)角度來看,只不過改進(jìn)了Tensor運(yùn)算和梯度優(yōu)化,本質(zhì)上并不復(fù)雜。他不禁懷疑:人類真的那么難以復(fù)制嗎?
但隨著對AI理解的加深,他開始意識到:模擬人腦的方式不止一種。如果能夠用計算機(jī)模仿人類的學(xué)習(xí)方式,那為什么不這樣做呢?
這就是他如今更加相信AGI的原因:
一方面,也許大腦并不是獨(dú)一無二的,它只是生物進(jìn)化的結(jié)果。雖然復(fù)雜,但歸根結(jié)底它也不過是一臺「生物計算機(jī)」,并不比硅基計算機(jī)更神秘。
另一方面,也許真正關(guān)鍵的因素不是結(jié)構(gòu)的復(fù)雜程度,而是系統(tǒng)是否具備足夠的規(guī)模。
AI雙城記
在哥倫比亞大學(xué),他追溯了人工智能(AI)的思想根源。
這一切都始于1948-1950年左右。
當(dāng)時,AlanTuring提出了一個問題:機(jī)器能思考嗎?
圖靈提出,人工智能不應(yīng)試圖模仿成人的大腦(包含復(fù)雜的經(jīng)驗(yàn)和偏見),而應(yīng)設(shè)計一個簡單的模型,盡量減少人為預(yù)設(shè)的結(jié)構(gòu),讓模型通過數(shù)據(jù)自主學(xué)習(xí)。
畢樹超對觀眾說:「這正是機(jī)器學(xué)習(xí)的核心。你構(gòu)建一個幾乎不含人類先驗(yàn)知識的系統(tǒng),讓它從數(shù)據(jù)中學(xué)習(xí)?!?/p>
他重點(diǎn)講了自監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
他回顧了自監(jiān)督學(xué)習(xí)、深度網(wǎng)絡(luò)以及像Transformer這樣的里程碑式架構(gòu)的興起。
他展示了計算能力和數(shù)據(jù)規(guī)模的提升(而非人工編碼的知識)如何帶來性能的飛躍。
自監(jiān)督學(xué)習(xí)
2012年,出現(xiàn)了AlexNet。
基本上可以說,這是第一個大規(guī)模深度學(xué)習(xí)模型,使用了GPU和大量數(shù)據(jù)。
AlexNet錯誤率令人驚嘆,性能之好史無前例。
從中,大家得到了一個啟示:只要有足夠的數(shù)據(jù)和計算能力,神經(jīng)網(wǎng)絡(luò)就會超越人類過去幾十年手工設(shè)計的視覺算法。
在當(dāng)時,對于從事視覺研究的研究人員來說,是一場災(zāi)難,幾十年付諸東流。
這重新喚起了人們對神經(jīng)網(wǎng)絡(luò)的興趣,深度學(xué)習(xí)革命開始了。
大多數(shù)人認(rèn)為2012年標(biāo)志著深度學(xué)習(xí)革命的開始。
然后到了2013年,谷歌發(fā)表了Word2Vec。
簡單來說,「Word2Vec」用一個嵌入向量,來表示單詞。
從此,單詞可以進(jìn)行算術(shù)運(yùn)算,比如「king-man=queen-woman」。
向量運(yùn)算竟然能捕捉語義關(guān)系!更關(guān)鍵的是,這些詞嵌入在下游任務(wù)中表現(xiàn)驚人。
這引發(fā)了另外兩個趨勢:
(1)Word2Vec演變到一切皆可向量化(everything2Vec)。
(2)強(qiáng)化了計算+數(shù)據(jù)的優(yōu)勢,這種結(jié)合遠(yuǎn)比歸納偏差表現(xiàn)要好。
這回應(yīng)了圖靈的設(shè)想:我們不想模擬成人的大腦,這意味著我們不希望在模型中加入人類的歸納偏差。
2014年,生成模型GAN出現(xiàn)了。
GAN在生成領(lǐng)域石破天驚,但與自監(jiān)督學(xué)習(xí)關(guān)系不大
2015年,深度學(xué)習(xí)「加速器」Adam優(yōu)化器已經(jīng)誕生了,開始流行。
它標(biāo)準(zhǔn)化了訓(xùn)練流程,終于不用再手工調(diào)參了!特別適合處理海量數(shù)據(jù)和稀疏梯度,直到今天大多數(shù)優(yōu)化器都是Adam的變種。
同年的ResNet更是神來之筆!
當(dāng)時深層網(wǎng)絡(luò)訓(xùn)練就像走鋼絲——梯度要么消失要么爆炸。而ResNet的「跳躍連接」(skipconnection)就像給神經(jīng)網(wǎng)絡(luò)裝了電梯:淺層特征可以直接跨層傳輸。
殘差連接讓優(yōu)化變得非常容易:右圖(a)沒有殘差連接時崎嶇不平,(b)引入殘差后如瓷碗一般平滑。
如果采用這種結(jié)構(gòu),可以確保學(xué)習(xí)起來容易得多。而且這種技巧幾乎適用于所有網(wǎng)絡(luò)架構(gòu)。這就是為什么現(xiàn)在幾乎所有網(wǎng)絡(luò)都采用這種結(jié)構(gòu)。
不過當(dāng)年,很多數(shù)學(xué)背景的人都質(zhì)疑過深度學(xué)習(xí)中的這類技巧。
豁然開朗
演講的前一天,畢樹超和物理教授聊天才意識到:在低維空間建立的統(tǒng)計直覺,在萬億參數(shù)的高維空間根本不適用!
原因是大家都生活在低維空間中,低維度的直覺難以推廣到高維空間。
畢樹超花了好幾年才克服了這些錯誤的直觀。
他之所以困惑一大原因在于深度神經(jīng)網(wǎng)絡(luò)需要的是非凸優(yōu)化(non-convexoptimization)。
當(dāng)處理非凸優(yōu)化時,首先擔(dān)心是陷入隨機(jī)的局部最小值。如果最好的結(jié)果不過是隨機(jī)的局部最小值,怎么能信任結(jié)果呢?然后,有很多關(guān)于這個的研究。
讓他重拾信心的第一個發(fā)現(xiàn)是:在高維空間里,陷入局部最優(yōu)其實(shí)非常難。在三維世界看二維曲面時,局部極小值確實(shí)像深坑難爬出來。但在十億維空間里,有無數(shù)個逃生通道!
第二個發(fā)現(xiàn)更妙:就算被困住,這些「局部極小值」其實(shí)離全局最優(yōu)根本不遠(yuǎn)!
所以現(xiàn)在沒人再糾結(jié)非凸優(yōu)化問題了。
那再說個更顛覆的現(xiàn)象——過參數(shù)不會帶來過擬合。
在傳統(tǒng)的統(tǒng)計分析領(lǐng)域中,如果參數(shù)數(shù)量大于數(shù)據(jù)點(diǎn)數(shù)量,那是一場災(zāi)難。從理論上講,這會導(dǎo)致過擬合。
但深度學(xué)習(xí)模型參數(shù)動不動就是樣本量的百倍!
作為數(shù)學(xué)統(tǒng)計雙背景的人,這曾讓他困惑不已、夜不能寐...
直到發(fā)現(xiàn):即便用隨機(jī)標(biāo)簽訓(xùn)練,網(wǎng)絡(luò)也會優(yōu)先學(xué)習(xí)真實(shí)模式,
這就是著名的「雙下降現(xiàn)象」:當(dāng)過參數(shù)化模型達(dá)到插值點(diǎn)后,會進(jìn)入廣闊的零損失解空間,并自動選擇泛化性最優(yōu)的解。
現(xiàn)在,終于可以說:過參數(shù)化不是bug,是feature!
ChatGPT前傳
2014年,出現(xiàn)了第一篇關(guān)于注意力機(jī)制的論文。
從2014年到2016年,當(dāng)時的主要挑戰(zhàn)是,這些模型很難并行訓(xùn)練,以及梯度消失。
LSTM有所幫助,但也沒有完全解決問題。
然后,Transformer就出現(xiàn)了。
這是過去十年中最重要的論文之一。它完全消除了遞歸,完全依賴于自注意力。
Transformer是一個轉(zhuǎn)折點(diǎn),優(yōu)雅地解決了之前的局限性。
畢樹超盛贊:「這是過去十年最重要的架構(gòu)。它高度可并行化、數(shù)據(jù)效率高,并且擴(kuò)展性極佳?!?/p>
2018年,出現(xiàn)了GPT-1。2019年,出現(xiàn)了GPT-2。2020年,出現(xiàn)了GPT-3。
畢樹超認(rèn)為GenAI的本質(zhì)通用性(generalizable)。
以前,只要有數(shù)據(jù),每個領(lǐng)域都可以構(gòu)建一個專門的模型。這并不具備可擴(kuò)展性。而GPT系列模型非常通用,可以通過零樣本或少樣本學(xué)習(xí)完成任務(wù)。
2020年,ScalingLaw論文揭示驚人規(guī)律:算力、參數(shù)量、數(shù)據(jù)量每增加10倍,損失函數(shù)就線性下降!
這個定律精準(zhǔn)預(yù)測了GPT-4的性能。雖然它終將觸及天花板,但在此之前,10萬億美元級的算力投入都將持續(xù)獲得回報!
這也是《TheBitterLesson》這篇雄文的核心:70年AI史就是「算力碾壓人類精巧設(shè)計的算法」的歷史!
當(dāng)然,作為數(shù)學(xué)系畢業(yè)生的畢樹超總在追問scaling的源頭——或許答案藏在數(shù)據(jù)分布的本征結(jié)構(gòu)中。
ScalingLaw如何讓模型頓悟?
看看數(shù)據(jù)分布:頂尖醫(yī)生解決罕見病,普通醫(yī)生處理常見??;
算術(shù)書籍浩如煙海,代數(shù)幾何專著卻鳳毛麟角。
智能的分布恰如冪律曲線!
Scalinglaw的本質(zhì)或許在此:每挖掘高一個數(shù)量級的「智能稀有度」,就需要十倍算力投入!
這解釋了為何模型總先學(xué)通用模式。
三年前,全網(wǎng)爭論的「能力涌現(xiàn)」,其實(shí)只是冪律數(shù)據(jù)遇到對數(shù)坐標(biāo)的視覺把戲!
當(dāng)算力突破臨界點(diǎn),AI「突然」學(xué)會微積分不過是捕獲了數(shù)據(jù)長尾中的高階模式!
這只是一個視角問題。它并不是突然出現(xiàn)的,它實(shí)際上只是反映了底層數(shù)據(jù)。
Ilya有一句名言:「模型只是想學(xué)習(xí)?!?/p>
Transformer架構(gòu)終于讓AI回歸本能:吃數(shù)據(jù),吐智能!。
過去十年,我們逐漸打破了很多對機(jī)器學(xué)習(xí)的誤解。如今,主流觀點(diǎn)是:預(yù)測本身的壓縮,其實(shí)等同于理解,甚至是智能的體現(xiàn)。
從信息論的角度來看,Shannon把「信息」定義為「不可預(yù)測性」?!钢悄堋箍梢岳斫鉃椋鹤屵@個世界變得越來越不讓你感到驚訝的能力。
從這個意義上看,大語言模型在預(yù)測下一個詞時,其實(shí)是在壓縮語言中的各種模式。這正是人類理解世界的方式之一。
從認(rèn)知科學(xué)的角度,人類的學(xué)習(xí)過程本質(zhì)上也是壓縮過程。物理定律、數(shù)學(xué)公理等方式把世界的觀察總結(jié)成最小的一組規(guī)則。
因此,從信息到學(xué)習(xí),從預(yù)測到理解,「壓縮」是背后共同的核心邏輯。
強(qiáng)化學(xué)習(xí)
整個深度強(qiáng)化學(xué)習(xí)從2015年開始。
當(dāng)時,出現(xiàn)了DQN網(wǎng)絡(luò)。它可以玩多種雅達(dá)利游戲,玩得比人類好多了。
這些模型發(fā)現(xiàn)了很多人類想不到的策略,因此人們稱之為「外星智能」(alienintelligence)。
真正的核爆點(diǎn)在圍棋上。AlphaGo的表現(xiàn)讓人們第一次意識到:「這些模型真的有智能?!?/p>
AlphaGo起初是從人類棋譜中訓(xùn)練起來的,它結(jié)合了深度神經(jīng)網(wǎng)絡(luò)、、自我博弈(self-play)和蒙特卡洛樹搜索(MonteCarloTreeSearch),最終擊敗了世界冠軍。
到了2017年,AlphaGoZero出現(xiàn)了。模型進(jìn)一步升級,完全不再依賴人類數(shù)據(jù),所有訓(xùn)練都來自自我對弈,堪稱「AI界周伯通」!
2018年,AlphaZero再進(jìn)一步。
2019年,強(qiáng)化學(xué)習(xí)擴(kuò)展到了電子游戲,比如《星際爭霸》。
但這股熱潮很快退卻了,因?yàn)槿藗儼l(fā)現(xiàn):AI雖然能「打游戲」,卻在現(xiàn)實(shí)中沒有太大用處。
直到強(qiáng)化學(xué)習(xí)與預(yù)訓(xùn)練模型結(jié)合,這一切才真正發(fā)生了變化,開啟了「預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)結(jié)合的新時代」。
低算力RL
比如2022年的InstructGPT,它讓大語言模型不僅僅是「自動補(bǔ)全工具」,而是能夠理解和執(zhí)行人類指令。
而2022年發(fā)布的ChatGPT,更是通過強(qiáng)化學(xué)習(xí)(特別是人類反饋強(qiáng)化學(xué)習(xí),RLHF)進(jìn)一步提升了交互能力。
當(dāng)時,這個項(xiàng)目只是JohnSchulman等人的一個低調(diào)研究預(yù)覽。誰曾想,它如今每周有超過5億用戶使用,徹底改變了人們獲取信息的方式。
但仔細(xì)一想,這跟之前提到的「游戲里的強(qiáng)化學(xué)習(xí)」到底有什么不同呢?
強(qiáng)化學(xué)習(xí)+預(yù)訓(xùn)練模型,可以應(yīng)用到現(xiàn)實(shí)中更廣泛、更有價值的場景中。
關(guān)于當(dāng)前AI模型的訓(xùn)練方式,強(qiáng)化學(xué)習(xí)所占的計算資源比例其實(shí)非常小,就像蛋糕上點(diǎn)綴的櫻桃。
但未來如果要構(gòu)建真正的AGI乃至ASI,強(qiáng)化學(xué)習(xí)必須發(fā)揮更大的作用,尤其是在適應(yīng)未知環(huán)境方面。
高算力RL
在過去六七十年的AI發(fā)展中,有兩類技術(shù)最能隨著算力增長而不斷進(jìn)步:
「學(xué)習(xí)」:也就是預(yù)訓(xùn)練;
「搜索」:通過策略探索獲得新解。
而「搜索」這一方向,目前還遠(yuǎn)遠(yuǎn)不夠好。
這也是為什么我們要進(jìn)入AI發(fā)展的「第二階段范式」:讓預(yù)訓(xùn)練與高計算量強(qiáng)化學(xué)習(xí)真正結(jié)合起來。
從2014年的o系列模型開始,這種趨勢已經(jīng)出現(xiàn)。
在數(shù)學(xué)基準(zhǔn)上AIME中的表現(xiàn),開源的DeepSeekR1已經(jīng)超過o1。
這并不是一件簡單的事,它代表了全新的計算范式:「高算力RL」。
這種范式然顯著增強(qiáng)了模型的「個體學(xué)習(xí)」能力。
雖然問題還有很多值得探索,但畢樹超在演講中表示:「每隔幾個月,我們就看到一些曾經(jīng)被認(rèn)為不可能的事情成為現(xiàn)實(shí)。這應(yīng)該讓我們重新審視所有我們?nèi)匀徽J(rèn)為不可能的事情。」
也許很多我們以為的不可能,其實(shí)只是知識的局限。
參考資料:
https://youtu.be/E22AOHAEtu4
https://www.linkedin.com/feed/update/urn:li:activity:7336814222590341120/
https://x.com/shuchaobi/status/1949493389894058487
https://www.engineering.columbia.edu/about/news/exploring-past-and-future-ai
有孕三個月時被算計(完結(jié))
她本就是武將家的掌上明珠,一身好武藝比薛燕辭都強(qiáng)。如果更是憋著勁兒要為了出一口惡氣。幾腳下去,廂房里只剩下薛燕辭的哀嚎。我裝模作樣攔了幾下,實(shí)則也偷偷上腳,往薛燕辭命根子處狠狠來了幾下。那位差點(diǎn)步了我后塵的小姐也有樣學(xué)樣,一邊哭一邊沖著薛燕辭伸腳,專往臉上招呼。真是人不可貌相啊。至于跟著一起進(jìn)來的其他貴女們, 要說春妮的人生,那可真是開了掛的存在??!這位上海灘長大的姑娘,從小就是父母眼中的掌上明珠_——。但別以為她是個嬌生慣養(yǎng)的小公主哦,這姑娘可是有真本事的!在學(xué)校里,春妮簡直就是學(xué)霸中的戰(zhàn)斗機(jī),學(xué)習(xí)成績好得讓人羨慕嫉妒恨。不僅如此,她還是個多才多藝的文藝青年,簡直就是別人家的孩子本尊?。∽顓柡Φ恼f完了————。白星雅霍景霖(熱門/小說大結(jié)局)白星雅霍景霖全文閱讀筆趣閣