新智元報道
KingHZ
【新智元導讀】Meta超級智能團隊成員畢樹超,回溯70年AI進化:從AlexNet掀起深度學習革命,到Transformer與ScalingLaw驅(qū)動大模型爆發(fā),再到強化學習+預訓練通向AGI。他相信智能并非人類都獨有,AGI曙光已現(xiàn)!
加入Meta超級智能實驗室后,畢樹超首次發(fā)聲:大多數(shù)人可能低估了AI的影響!
十年前,他非常懷疑AGI,但在過去十年中,他逐漸接受了AGI,日漸篤定,甚至宣稱:2025,AGI已來。
上個月,他在哥倫比亞大學和哈佛大學就人工智能發(fā)表了兩次演講。
許多參加的人都后來聯(lián)系他,聲稱這次演講改變了他們的AI觀念。
在題為《推進硅基智能前沿:過去、開放問題與未來》的演講中,畢樹超系統(tǒng)闡述了過去15年的技術進展、當前待解難題以及未來發(fā)展趨勢
目前,他在Meta從事強化學習/后訓練/智能體研究。之前,他在OpenAI領導多模態(tài)研究;他還是YouTubeShorts的主要負責人。
他本科從浙江大學數(shù)學專業(yè)畢業(yè),之后在加州大學伯克利分校獲得統(tǒng)計學碩士和數(shù)學博士學位。
AGI曙光
最近,DavidSilver等人發(fā)表了《WelcometotheEraofExperience》。
他們的核心觀點是:高質(zhì)量的人類數(shù)據(jù)非常稀缺。
盡管人類文明已有幾千年,但真正積累的高質(zhì)量數(shù)據(jù)并不多,而且大部分文本快消耗殆盡。
所以問題是:如何生成更多的數(shù)據(jù)?
答案可能在于人類本身。人類的數(shù)據(jù)來源于人腦的思考,以及從真實環(huán)境中獲得的反饋和獎勵。
算力正在變得越來越廉價,計算機與環(huán)境的交互或許可自動生成新的知識與數(shù)據(jù)。這種方式將可能比人類自身產(chǎn)生數(shù)據(jù)的速度更快。
這也是為什么畢樹超如此看好通用人工智能(AGI)和超人工智能(ArtificialSuperintelligence,ASI)的原因。
他分享了個人對AGI研究的心路歷程。
一開始對通用人工智能持懷疑態(tài)度,因為這個領域存在大量炒作。
對他個人來說,最大的障礙是他曾堅定地相信:人腦是特別的,人類智能是獨一無二的。
畢竟,目前許多技術,從數(shù)學角度來看,只不過改進了Tensor運算和梯度優(yōu)化,本質(zhì)上并不復雜。他不禁懷疑:人類真的那么難以復制嗎?
但隨著對AI理解的加深,他開始意識到:模擬人腦的方式不止一種。如果能夠用計算機模仿人類的學習方式,那為什么不這樣做呢?
這就是他如今更加相信AGI的原因:
一方面,也許大腦并不是獨一無二的,它只是生物進化的結果。雖然復雜,但歸根結底它也不過是一臺「生物計算機」,并不比硅基計算機更神秘。
另一方面,也許真正關鍵的因素不是結構的復雜程度,而是系統(tǒng)是否具備足夠的規(guī)模。
AI雙城記
在哥倫比亞大學,他追溯了人工智能(AI)的思想根源。
這一切都始于1948-1950年左右。
當時,AlanTuring提出了一個問題:機器能思考嗎?
圖靈提出,人工智能不應試圖模仿成人的大腦(包含復雜的經(jīng)驗和偏見),而應設計一個簡單的模型,盡量減少人為預設的結構,讓模型通過數(shù)據(jù)自主學習。
畢樹超對觀眾說:「這正是機器學習的核心。你構建一個幾乎不含人類先驗知識的系統(tǒng),讓它從數(shù)據(jù)中學習?!?/p>
他重點講了自監(jiān)督學習和強化學習。
他回顧了自監(jiān)督學習、深度網(wǎng)絡以及像Transformer這樣的里程碑式架構的興起。
他展示了計算能力和數(shù)據(jù)規(guī)模的提升(而非人工編碼的知識)如何帶來性能的飛躍。
自監(jiān)督學習
2012年,出現(xiàn)了AlexNet。
基本上可以說,這是第一個大規(guī)模深度學習模型,使用了GPU和大量數(shù)據(jù)。
AlexNet錯誤率令人驚嘆,性能之好史無前例。
從中,大家得到了一個啟示:只要有足夠的數(shù)據(jù)和計算能力,神經(jīng)網(wǎng)絡就會超越人類過去幾十年手工設計的視覺算法。
在當時,對于從事視覺研究的研究人員來說,是一場災難,幾十年付諸東流。
這重新喚起了人們對神經(jīng)網(wǎng)絡的興趣,深度學習革命開始了。
大多數(shù)人認為2012年標志著深度學習革命的開始。
然后到了2013年,谷歌發(fā)表了Word2Vec。
簡單來說,「Word2Vec」用一個嵌入向量,來表示單詞。
從此,單詞可以進行算術運算,比如「king-man=queen-woman」。
向量運算竟然能捕捉語義關系!更關鍵的是,這些詞嵌入在下游任務中表現(xiàn)驚人。
這引發(fā)了另外兩個趨勢:
(1)Word2Vec演變到一切皆可向量化(everything2Vec)。
(2)強化了計算+數(shù)據(jù)的優(yōu)勢,這種結合遠比歸納偏差表現(xiàn)要好。
這回應了圖靈的設想:我們不想模擬成人的大腦,這意味著我們不希望在模型中加入人類的歸納偏差。
2014年,生成模型GAN出現(xiàn)了。
GAN在生成領域石破天驚,但與自監(jiān)督學習關系不大
2015年,深度學習「加速器」Adam優(yōu)化器已經(jīng)誕生了,開始流行。
它標準化了訓練流程,終于不用再手工調(diào)參了!特別適合處理海量數(shù)據(jù)和稀疏梯度,直到今天大多數(shù)優(yōu)化器都是Adam的變種。
同年的ResNet更是神來之筆!
當時深層網(wǎng)絡訓練就像走鋼絲——梯度要么消失要么爆炸。而ResNet的「跳躍連接」(skipconnection)就像給神經(jīng)網(wǎng)絡裝了電梯:淺層特征可以直接跨層傳輸。
殘差連接讓優(yōu)化變得非常容易:右圖(a)沒有殘差連接時崎嶇不平,(b)引入殘差后如瓷碗一般平滑。
如果采用這種結構,可以確保學習起來容易得多。而且這種技巧幾乎適用于所有網(wǎng)絡架構。這就是為什么現(xiàn)在幾乎所有網(wǎng)絡都采用這種結構。
不過當年,很多數(shù)學背景的人都質(zhì)疑過深度學習中的這類技巧。
豁然開朗
演講的前一天,畢樹超和物理教授聊天才意識到:在低維空間建立的統(tǒng)計直覺,在萬億參數(shù)的高維空間根本不適用!
原因是大家都生活在低維空間中,低維度的直覺難以推廣到高維空間。
畢樹超花了好幾年才克服了這些錯誤的直觀。
他之所以困惑一大原因在于深度神經(jīng)網(wǎng)絡需要的是非凸優(yōu)化(non-convexoptimization)。
當處理非凸優(yōu)化時,首先擔心是陷入隨機的局部最小值。如果最好的結果不過是隨機的局部最小值,怎么能信任結果呢?然后,有很多關于這個的研究。
讓他重拾信心的第一個發(fā)現(xiàn)是:在高維空間里,陷入局部最優(yōu)其實非常難。在三維世界看二維曲面時,局部極小值確實像深坑難爬出來。但在十億維空間里,有無數(shù)個逃生通道!
第二個發(fā)現(xiàn)更妙:就算被困住,這些「局部極小值」其實離全局最優(yōu)根本不遠!
所以現(xiàn)在沒人再糾結非凸優(yōu)化問題了。
那再說個更顛覆的現(xiàn)象——過參數(shù)不會帶來過擬合。
在傳統(tǒng)的統(tǒng)計分析領域中,如果參數(shù)數(shù)量大于數(shù)據(jù)點數(shù)量,那是一場災難。從理論上講,這會導致過擬合。
但深度學習模型參數(shù)動不動就是樣本量的百倍!
作為數(shù)學統(tǒng)計雙背景的人,這曾讓他困惑不已、夜不能寐...
直到發(fā)現(xiàn):即便用隨機標簽訓練,網(wǎng)絡也會優(yōu)先學習真實模式,
這就是著名的「雙下降現(xiàn)象」:當過參數(shù)化模型達到插值點后,會進入廣闊的零損失解空間,并自動選擇泛化性最優(yōu)的解。
現(xiàn)在,終于可以說:過參數(shù)化不是bug,是feature!
ChatGPT前傳
2014年,出現(xiàn)了第一篇關于注意力機制的論文。
從2014年到2016年,當時的主要挑戰(zhàn)是,這些模型很難并行訓練,以及梯度消失。
LSTM有所幫助,但也沒有完全解決問題。
然后,Transformer就出現(xiàn)了。
這是過去十年中最重要的論文之一。它完全消除了遞歸,完全依賴于自注意力。
Transformer是一個轉折點,優(yōu)雅地解決了之前的局限性。
畢樹超盛贊:「這是過去十年最重要的架構。它高度可并行化、數(shù)據(jù)效率高,并且擴展性極佳?!?/p>
2018年,出現(xiàn)了GPT-1。2019年,出現(xiàn)了GPT-2。2020年,出現(xiàn)了GPT-3。
畢樹超認為GenAI的本質(zhì)通用性(generalizable)。
以前,只要有數(shù)據(jù),每個領域都可以構建一個專門的模型。這并不具備可擴展性。而GPT系列模型非常通用,可以通過零樣本或少樣本學習完成任務。
2020年,ScalingLaw論文揭示驚人規(guī)律:算力、參數(shù)量、數(shù)據(jù)量每增加10倍,損失函數(shù)就線性下降!
這個定律精準預測了GPT-4的性能。雖然它終將觸及天花板,但在此之前,10萬億美元級的算力投入都將持續(xù)獲得回報!
這也是《TheBitterLesson》這篇雄文的核心:70年AI史就是「算力碾壓人類精巧設計的算法」的歷史!
當然,作為數(shù)學系畢業(yè)生的畢樹超總在追問scaling的源頭——或許答案藏在數(shù)據(jù)分布的本征結構中。
ScalingLaw如何讓模型頓悟?
看看數(shù)據(jù)分布:頂尖醫(yī)生解決罕見病,普通醫(yī)生處理常見??;
算術書籍浩如煙海,代數(shù)幾何專著卻鳳毛麟角。
智能的分布恰如冪律曲線!
Scalinglaw的本質(zhì)或許在此:每挖掘高一個數(shù)量級的「智能稀有度」,就需要十倍算力投入!
這解釋了為何模型總先學通用模式。
三年前,全網(wǎng)爭論的「能力涌現(xiàn)」,其實只是冪律數(shù)據(jù)遇到對數(shù)坐標的視覺把戲!
當算力突破臨界點,AI「突然」學會微積分不過是捕獲了數(shù)據(jù)長尾中的高階模式!
這只是一個視角問題。它并不是突然出現(xiàn)的,它實際上只是反映了底層數(shù)據(jù)。
Ilya有一句名言:「模型只是想學習?!?/p>
Transformer架構終于讓AI回歸本能:吃數(shù)據(jù),吐智能!。
過去十年,我們逐漸打破了很多對機器學習的誤解。如今,主流觀點是:預測本身的壓縮,其實等同于理解,甚至是智能的體現(xiàn)。
從信息論的角度來看,Shannon把「信息」定義為「不可預測性」?!钢悄堋箍梢岳斫鉃椋鹤屵@個世界變得越來越不讓你感到驚訝的能力。
從這個意義上看,大語言模型在預測下一個詞時,其實是在壓縮語言中的各種模式。這正是人類理解世界的方式之一。
從認知科學的角度,人類的學習過程本質(zhì)上也是壓縮過程。物理定律、數(shù)學公理等方式把世界的觀察總結成最小的一組規(guī)則。
因此,從信息到學習,從預測到理解,「壓縮」是背后共同的核心邏輯。
強化學習
整個深度強化學習從2015年開始。
當時,出現(xiàn)了DQN網(wǎng)絡。它可以玩多種雅達利游戲,玩得比人類好多了。
這些模型發(fā)現(xiàn)了很多人類想不到的策略,因此人們稱之為「外星智能」(alienintelligence)。
真正的核爆點在圍棋上。AlphaGo的表現(xiàn)讓人們第一次意識到:「這些模型真的有智能?!?/p>
AlphaGo起初是從人類棋譜中訓練起來的,它結合了深度神經(jīng)網(wǎng)絡、、自我博弈(self-play)和蒙特卡洛樹搜索(MonteCarloTreeSearch),最終擊敗了世界冠軍。
到了2017年,AlphaGoZero出現(xiàn)了。模型進一步升級,完全不再依賴人類數(shù)據(jù),所有訓練都來自自我對弈,堪稱「AI界周伯通」!
2018年,AlphaZero再進一步。
2019年,強化學習擴展到了電子游戲,比如《星際爭霸》。
但這股熱潮很快退卻了,因為人們發(fā)現(xiàn):AI雖然能「打游戲」,卻在現(xiàn)實中沒有太大用處。
直到強化學習與預訓練模型結合,這一切才真正發(fā)生了變化,開啟了「預訓練與強化學習結合的新時代」。
低算力RL
比如2022年的InstructGPT,它讓大語言模型不僅僅是「自動補全工具」,而是能夠理解和執(zhí)行人類指令。
而2022年發(fā)布的ChatGPT,更是通過強化學習(特別是人類反饋強化學習,RLHF)進一步提升了交互能力。
當時,這個項目只是JohnSchulman等人的一個低調(diào)研究預覽。誰曾想,它如今每周有超過5億用戶使用,徹底改變了人們獲取信息的方式。
但仔細一想,這跟之前提到的「游戲里的強化學習」到底有什么不同呢?
強化學習+預訓練模型,可以應用到現(xiàn)實中更廣泛、更有價值的場景中。
關于當前AI模型的訓練方式,強化學習所占的計算資源比例其實非常小,就像蛋糕上點綴的櫻桃。
但未來如果要構建真正的AGI乃至ASI,強化學習必須發(fā)揮更大的作用,尤其是在適應未知環(huán)境方面。
高算力RL
在過去六七十年的AI發(fā)展中,有兩類技術最能隨著算力增長而不斷進步:
「學習」:也就是預訓練;
「搜索」:通過策略探索獲得新解。
而「搜索」這一方向,目前還遠遠不夠好。
這也是為什么我們要進入AI發(fā)展的「第二階段范式」:讓預訓練與高計算量強化學習真正結合起來。
從2014年的o系列模型開始,這種趨勢已經(jīng)出現(xiàn)。
在數(shù)學基準上AIME中的表現(xiàn),開源的DeepSeekR1已經(jīng)超過o1。
這并不是一件簡單的事,它代表了全新的計算范式:「高算力RL」。
這種范式然顯著增強了模型的「個體學習」能力。
雖然問題還有很多值得探索,但畢樹超在演講中表示:「每隔幾個月,我們就看到一些曾經(jīng)被認為不可能的事情成為現(xiàn)實。這應該讓我們重新審視所有我們?nèi)匀徽J為不可能的事情。」
也許很多我們以為的不可能,其實只是知識的局限。
參考資料:
https://youtu.be/E22AOHAEtu4
https://www.linkedin.com/feed/update/urn:li:activity:7336814222590341120/
https://x.com/shuchaobi/status/1949493389894058487
https://www.engineering.columbia.edu/about/news/exploring-past-and-future-ai
扒一扒網(wǎng)文大神們的后宮文:沒想到,烽火戲諸侯也有這樣的曾經(jīng)
《我叫趙甲第》:男主的9位“紅顏知己”,已出場6位,誰最驚艷
盤點縱橫平臺十位知名的大神作家,你都知道哪幾位呢!
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。