實(shí)詩(shī)蕊
新智元報(bào)道
KingHZ
【新智元導(dǎo)讀】AlphaStar等證明強(qiáng)化學(xué)習(xí)在游戲等復(fù)雜任務(wù)上,表現(xiàn)出色,遠(yuǎn)超職業(yè)選手!那強(qiáng)化學(xué)習(xí)怎么突然就不行了呢?強(qiáng)化學(xué)習(xí)到底是怎么走上歧路的?
最近,斯坦福的AI+CS博士JosephSuarez發(fā)表了對(duì)強(qiáng)化學(xué)習(xí)的歷史回顧。
結(jié)果,在上火了!目前,已有38.2萬(wàn)閱讀。
封面可謂醒目:一條曲線線先是快速上升,然后平緩爬升,最后卻急轉(zhuǎn)直下,暗喻RL領(lǐng)域的研究前途不妙!
從歷史角度看,強(qiáng)化學(xué)習(xí)發(fā)生了什么?為什么到現(xiàn)在它才真正開(kāi)始起飛?
他提供了獨(dú)特的個(gè)人視角。
師出名門
2019年,他本科畢業(yè)于斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)人工智能方向。
2018年,他利用休學(xué)期在OpenAI完成6個(gè)月實(shí)習(xí),期間正式發(fā)布NeuralMMO首個(gè)公開(kāi)版本
更早之前,他曾在李飛飛課題組、吳恩達(dá)實(shí)驗(yàn)室參與過(guò)研究項(xiàng)目。
大約從2017年,他開(kāi)始從事強(qiáng)化學(xué)習(xí)。
當(dāng)時(shí),他在麻省理工學(xué)院PhillipIsola實(shí)驗(yàn)室攻讀博士,開(kāi)始創(chuàng)建開(kāi)源計(jì)算研究平臺(tái)NeuralMMO。
他的研究聚焦于推動(dòng)現(xiàn)代基于智能體的學(xué)習(xí)方法向更復(fù)雜、更具認(rèn)知真實(shí)性的環(huán)境拓展。
后來(lái),這個(gè)項(xiàng)目后來(lái)成為他整個(gè)博士生畢業(yè)論文的的主題。
論文鏈接:https://jsuarez5341.github.io/static/jsuarez_phd_thesis.pdf
這也為他PufferLib的工作奠定了基礎(chǔ)。
當(dāng)時(shí),各大實(shí)驗(yàn)室也在做從零開(kāi)始、非語(yǔ)言模型的強(qiáng)化學(xué)習(xí)RL。
事實(shí)上,這是當(dāng)時(shí)大多數(shù)工作的重點(diǎn):多智能體(multiagent)剛剛興起,所有核心算法剛剛發(fā)布。
AlphaGo讓研究者已經(jīng)看到了強(qiáng)化學(xué)習(xí)的潛力。OpenAIFive正在開(kāi)發(fā)中,當(dāng)時(shí)他恰好在OpenAI實(shí)習(xí),所以親眼看到了一些工作。
OpenAI的DoTA(Dota2)項(xiàng)目,則完全讓他信服RL的神奇。
論文鏈接:https://cdn.openai.com/dota-2.pdf
你如果不玩這款游戲,難以想象這個(gè)問(wèn)題有多復(fù)雜。
你不會(huì)相信人們居然把打DoTA當(dāng)成愛(ài)好。它和圍棋并非完全一樣,無(wú)法直接比較,但它確實(shí)涉及許多圍棋中沒(méi)有的、與現(xiàn)實(shí)世界相關(guān)的推理類型。
比如,高低級(jí)策略、控制、團(tuán)隊(duì)協(xié)調(diào)和心智理論(theoryofmind),這些只是其中幾個(gè)例子。
而OpenAI用1.68億參數(shù)的網(wǎng)絡(luò),在約1000個(gè)GPU上訓(xùn)練,打敗了頂尖職業(yè)選手。
現(xiàn)在,用64到128個(gè)H100GPU,你也能做到。
而且還不止一個(gè)結(jié)果。還有AlphaStar、CapturetheFlag、EmergentToolUse……
在訓(xùn)練過(guò)程中,AlphaStar最終被選中與職業(yè)選手MaNa對(duì)抗的智能體(黑點(diǎn))其策略與競(jìng)爭(zhēng)對(duì)手(彩點(diǎn))的演化過(guò)程。每個(gè)彩點(diǎn)代表AlphaStar聯(lián)賽中的一位競(jìng)爭(zhēng)對(duì)手
短短時(shí)間內(nèi),有好幾個(gè)主要的RL展示項(xiàng)目。那么,既然潛力這么明顯,領(lǐng)域肯定會(huì)繼續(xù)前進(jìn),對(duì)吧……對(duì)吧???
為什么RL衰落了
從2019年到2022年的,有些工作繼續(xù)在進(jìn)行,但強(qiáng)化學(xué)習(xí)明顯在走下坡路。
盡管那幾年論文更多了,但沒(méi)有多少像2017-2019年那種水平的持久突破。究竟發(fā)生了什么?
首要的因素是學(xué)術(shù)短視。
整個(gè)領(lǐng)域集體決定了一套標(biāo)準(zhǔn),卻沒(méi)有實(shí)際理由。在這些標(biāo)準(zhǔn)下,幾乎不可能出現(xiàn)什么進(jìn)步。
由于歷史原因,Agent57成為了最常見(jiàn)的基準(zhǔn),共包含57款雅達(dá)利游戲。
由于任務(wù)結(jié)果波動(dòng)大,需要運(yùn)行所有游戲(理想情況下,每款游戲使用多個(gè)種子)。同時(shí),學(xué)界決定x軸應(yīng)該是樣本數(shù),而不是實(shí)際運(yùn)行時(shí)間(墻鐘時(shí)間)。
背后的想法是,這更接近現(xiàn)實(shí)世界的學(xué)習(xí),許多問(wèn)題受限于采樣率。而且你不用擔(dān)心不同論文的硬件設(shè)置。
然而,顯而易見(jiàn)的問(wèn)題是沒(méi)有限制硬件使用量,可以通過(guò)投入更多計(jì)算資源來(lái)提升基準(zhǔn)成績(jī)。因此,研究變得愈加耗時(shí),以至于單個(gè)游戲的單獨(dú)運(yùn)行可能需要耗費(fèi)數(shù)周的GPU時(shí)間。
因?yàn)閷W(xué)術(shù)界對(duì)工程很排斥,代碼基底也慢得可怕。更不用說(shuō)有限的預(yù)算……
所以,你最終需要1萬(wàn)GPU小時(shí),在利用率不到5%的情況下運(yùn)行一組消融實(shí)驗(yàn)(ablations)。
這樣的研究方式根本行不通,跟好的科學(xué)更不沾邊。
要是沒(méi)有上萬(wàn)小時(shí)的GPU算力,很多人干脆不做消融實(shí)驗(yàn)就直接發(fā)論文——難怪那時(shí)候的研究成果基本無(wú)法復(fù)現(xiàn)。
另外,學(xué)界追名逐利。
大語(yǔ)言模型(LLMs)出現(xiàn)了。
人們經(jīng)常問(wèn)他為什么討厭LLM。他真的不討厭。他討厭的是,它們從其他領(lǐng)域吸走了99%的天才,而不是更合理的80%。
他眼看著最有才華的同事一個(gè)個(gè)離開(kāi)RL研究領(lǐng)域,被雇去研究LLM。這很難去責(zé)怪他們。做RL太糟了。那是艱苦、殘酷的工作,對(duì)抗一套似乎專門設(shè)計(jì)來(lái)阻礙真正進(jìn)步。
在一般深度學(xué)習(xí)中你習(xí)以為常的基本東西,甚至2015年的東西,在RL中都不存在。
超參數(shù)沒(méi)道理,模型無(wú)法擴(kuò)展,簡(jiǎn)單的任務(wù)也無(wú)法順利轉(zhuǎn)移。
盡管他們有證據(jù)證明RL能在DoTA和圍棋之類的驚人問(wèn)題上奏效,但日常工作的感覺(jué)就是絕望。
現(xiàn)在的RL重蹈覆轍
緩慢的實(shí)驗(yàn)周期、過(guò)度優(yōu)化的評(píng)價(jià)體系、遲緩的開(kāi)發(fā)進(jìn)度……這一切聽(tīng)起來(lái)是否耳熟?
現(xiàn)代RL研究不知怎么花了數(shù)十億美元,卻再現(xiàn)了最初扼殺RL發(fā)展的混亂局面,重蹈覆轍。
DavidPeterson對(duì)此非常認(rèn)同:強(qiáng)化學(xué)習(xí)莫名其妙地多次重蹈覆轍,上一次是時(shí)序差分。
這一次它會(huì)走得更遠(yuǎn),畢竟有利可圖……但效率極低。
看著該領(lǐng)域重新陷入前人多年前就已經(jīng)克服的困境,同時(shí)為各種概念創(chuàng)造新的術(shù)語(yǔ),令人啼笑皆非。
「多輪RL」意思是「不只是賭博機(jī)問(wèn)題」(notabandit)。這幾乎涵蓋了全部的RL新研究,除了某些小眾理論研究。
「長(zhǎng)期規(guī)劃」(Longhorizons)也不是新東西,這也不是讓問(wèn)題變得如此困難的全貌。
當(dāng)前對(duì)早期RL研究的充滿了不信任,JosephSuarez表示理解——
因?yàn)樵S多發(fā)表的內(nèi)容確實(shí)存在問(wèn)題。
另尋他路
JosephSuarez還在堅(jiān)持用小模型從零開(kāi)始的RL。
只是現(xiàn)在,這不再是衰落的舊勢(shì)力,他們?cè)谝泽@人速度突破。
那么,什么改變了?
完成博士學(xué)位后,他決定完全從學(xué)界的隨意的標(biāo)準(zhǔn)中解放出來(lái),從頭重建RL。
標(biāo)準(zhǔn)是墻鐘訓(xùn)練時(shí)間,性能工程將和算法工作一樣重要。
他花幾個(gè)月時(shí)間拆除所有慢的基礎(chǔ)設(shè)施,目標(biāo)是每秒數(shù)百萬(wàn)步的吞吐,而不是幾千。
起初,這只是現(xiàn)有方法的加速版本。這對(duì)解決行業(yè)中因成本過(guò)高而難以實(shí)施的問(wèn)題已綽綽有余。
但這還不止——這個(gè)過(guò)程實(shí)際上讓他們能夠以前所未有的速度開(kāi)展高質(zhì)量研究。當(dāng)你可以運(yùn)行1000倍的實(shí)驗(yàn)時(shí),無(wú)需過(guò)于精巧的方法論;當(dāng)所有選項(xiàng)都可以測(cè)試時(shí),也無(wú)需小心翼翼地挑選變量。
最新基準(zhǔn)測(cè)試顯示,在單個(gè)RTX5090上,強(qiáng)化學(xué)習(xí)庫(kù)PufferLib3.0的訓(xùn)練速度最高可達(dá)每秒400萬(wàn)步
一年前,你需要RL博士學(xué)位和幾周到幾個(gè)月來(lái)處理每個(gè)新問(wèn)題。如果你沒(méi)有經(jīng)驗(yàn),耗時(shí)就更長(zhǎng)了?,F(xiàn)在,新手程序員在幾天內(nèi)讓RL在新問(wèn)題上運(yùn)行。不是超級(jí)難的問(wèn)題——那些還是需要點(diǎn)經(jīng)驗(yàn)。但比之前好多了。
他們走在正確方向的跡象:他們?cè)诤?jiǎn)單環(huán)境上的實(shí)驗(yàn)?zāi)芊夯礁y環(huán)境。
他們認(rèn)為之前的batchsize和特定退化超參數(shù)是罪魁禍?zhǔn)住2皇?00%——肯定有些技術(shù)只有在更難問(wèn)題上才見(jiàn)效。
但他們現(xiàn)在有足夠多在幾分鐘內(nèi)運(yùn)行的技術(shù),開(kāi)發(fā)周期還是很快。
下一步:他們計(jì)劃能用現(xiàn)有東西解決有價(jià)值的問(wèn)題。
只要能建快模擬器,RL大多能工作。嘿,在很多問(wèn)題上,它開(kāi)箱即用。
長(zhǎng)期來(lái)看,他們會(huì)回到舊的樣本效率研究。但他們還是會(huì)從至少保持flop效率的角度接近它。不再讓GPU在5%利用率下跑批量大小8的200萬(wàn)參數(shù)網(wǎng)絡(luò)。
參考資料:
https://x.com/jsuarez5341/status/1946622588891107565
來(lái)源:紅網(wǎng)
作者:巨紫萱
編輯:杜昊偉
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。