本論文由新加坡國(guó)立大學(xué)、A*STAR前沿人工智能研究中心、東北大學(xué)、SeaAILab、PlasticLabs、華盛頓大學(xué)的研究者合作完成。劉博、LeonGuertler、余知樂、劉梓辰為論文共同第一作者。劉博是新加坡國(guó)立大學(xué)博士生,研究方向?yàn)榭蓴U(kuò)展的自主提升,致力于構(gòu)建能在未知環(huán)境中智能決策的自主智能體。LeonGuertler是A*STAR前沿人工智能研究中心研究員,專注于小型高效語(yǔ)言模型研究。余知樂是東北大學(xué)博士生,研究方向?yàn)檎Z(yǔ)言模型的對(duì)齊和后訓(xùn)練。劉梓辰是新加坡國(guó)立大學(xué)和SeaAILab的聯(lián)合培養(yǎng)博士生,主要研究語(yǔ)言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練。通訊作者NatashaJaques是華盛頓大學(xué)教授,在人機(jī)交互和多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域有深厚造詣。
近年來(lái),OpenAIo1和DeepSeek-R1等模型的成功證明了強(qiáng)化學(xué)習(xí)能夠顯著提升語(yǔ)言模型的推理能力。通過基于結(jié)果的獎(jiǎng)勵(lì)機(jī)制,強(qiáng)化學(xué)習(xí)使模型能夠發(fā)展出可泛化的推理策略,在復(fù)雜問題上取得了監(jiān)督微調(diào)難以企及的進(jìn)展。
然而,當(dāng)前的推理增強(qiáng)方法面臨著根本性的可擴(kuò)展性瓶頸:它們嚴(yán)重依賴精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)、特定領(lǐng)域的數(shù)據(jù)集和專家監(jiān)督。每個(gè)新的推理領(lǐng)域都需要專家制定評(píng)估指標(biāo)、策劃訓(xùn)練問題。這種人工密集的過程在追求更通用智能的道路上變得越來(lái)越不可持續(xù)。
來(lái)自新加坡國(guó)立大學(xué)、A*STAR、東北大學(xué)等機(jī)構(gòu)的聯(lián)合研究團(tuán)隊(duì)提出了SPIRAL(Self-Playonzero-sumgamesIncentivizesReasoningviamulti-Agentmulti-turnreinforcementLearning),通過讓模型在零和游戲中與自己對(duì)弈,自主發(fā)現(xiàn)并強(qiáng)化可泛化的推理模式,完全擺脫了對(duì)人工監(jiān)督的依賴。
論文標(biāo)題:SPIRAL:Self-PlayonZero-SumGamesIncentivizesReasoningviaMulti-AgentMulti-TurnReinforcementLearning論文鏈接:https://huggingface.co/papers/2506.24119代碼鏈接:https://github.com/spiral-rl/spiral
游戲作為推理訓(xùn)練場(chǎng):從撲克到數(shù)學(xué)的驚人跨越
研究團(tuán)隊(duì)的核心洞察是:如果強(qiáng)化學(xué)習(xí)能夠從預(yù)訓(xùn)練語(yǔ)言模型中選擇出可泛化的思維鏈(Chain-of-Thought,CoT)模式,那么游戲?yàn)檫@一過程提供了完美的試煉場(chǎng):它們通過輸贏結(jié)果提供廉價(jià)、可驗(yàn)證的獎(jiǎng)勵(lì),無(wú)需人工標(biāo)注。通過在這些游戲上進(jìn)行自對(duì)弈,強(qiáng)化學(xué)習(xí)能夠自動(dòng)發(fā)現(xiàn)哪些CoT模式在多樣化的競(jìng)爭(zhēng)場(chǎng)景中獲得成功,并逐步強(qiáng)化這些模式,創(chuàng)造了一個(gè)自主的推理能力提升系統(tǒng)。
最令人驚訝的發(fā)現(xiàn)是:僅通過庫(kù)恩撲克(KuhnPoker)訓(xùn)練,模型的數(shù)學(xué)推理能力平均提升了8.7%,在MinervaMath基準(zhǔn)測(cè)試上更是躍升了18.1個(gè)百分點(diǎn)!要知道,在整個(gè)訓(xùn)練過程中,模型從未見過任何數(shù)學(xué)題目、方程式或?qū)W術(shù)問題。
SPIRAL框架:讓競(jìng)爭(zhēng)驅(qū)動(dòng)智能涌現(xiàn)
多回合零和游戲的獨(dú)特價(jià)值
SPIRAL選擇了三種具有不同認(rèn)知需求的游戲作為訓(xùn)練環(huán)境:
井字棋(TicTacToe):需要空間模式識(shí)別和對(duì)抗性規(guī)劃。玩家必須識(shí)別獲勝配置、阻止對(duì)手威脅并規(guī)劃多步策略。研究團(tuán)隊(duì)假設(shè)這些技能會(huì)遷移到幾何問題求解和空間可視化任務(wù)。庫(kù)恩撲克(KuhnPoker):一個(gè)最小化的撲克變體,只有三張牌(J、Q、K),玩家在隱藏信息下進(jìn)行下注。成功需要概率計(jì)算、對(duì)手建模和不確定性下的決策。這些能力預(yù)期會(huì)遷移到涉及概率、期望值和戰(zhàn)略不確定性的問題。簡(jiǎn)單談判(SimpleNegotiation):一個(gè)資源交易游戲,兩個(gè)玩家交換具有相反估值的木材和黃金以最大化投資組合價(jià)值。成功需要多步規(guī)劃、心智理論建模和通過提議與反提議進(jìn)行戰(zhàn)略溝通。
自對(duì)弈的魔力:永不停歇的進(jìn)化
與固定對(duì)手訓(xùn)練相比,自對(duì)弈具有獨(dú)特優(yōu)勢(shì)。研究發(fā)現(xiàn):
對(duì)抗強(qiáng)大的固定對(duì)手(Gemini-2.0-Flash-Lite):初始勝率為0%(無(wú)學(xué)習(xí)信號(hào)),最終停滯在62.5%(開發(fā)出固定的對(duì)抗策略)。對(duì)抗隨機(jī)對(duì)手:完全崩潰,由于「回合詛咒」使得完成有效游戲變得極其困難。自對(duì)弈:始終保持50-52%的勝率,確認(rèn)對(duì)手與學(xué)習(xí)者完美同步進(jìn)化。
這種自適應(yīng)的難度調(diào)整是關(guān)鍵所在。隨著模型改進(jìn),它的對(duì)手也在改進(jìn),創(chuàng)造了一個(gè)自動(dòng)調(diào)整的課程體系。
從游戲到數(shù)學(xué):推理模式的神奇遷移
三種核心推理模式的發(fā)現(xiàn)
通過分析數(shù)千個(gè)游戲軌跡和數(shù)學(xué)解題過程,研究團(tuán)隊(duì)發(fā)現(xiàn)了三種在游戲中產(chǎn)生并遷移到數(shù)學(xué)推理的核心模式:
期望值計(jì)算:在游戲中從15%增長(zhǎng)到78%的使用率,遷移到數(shù)學(xué)問題時(shí)保持28%的使用率。例如,在撲克中計(jì)算「跟注的期望值=獲勝概率×2-失敗概率×2」,這種思維直接應(yīng)用于數(shù)學(xué)中的概率和優(yōu)化問題。逐案分析:在撲克決策中出現(xiàn)率達(dá)72%,以71%的高保真度遷移到數(shù)學(xué)問題求解。游戲中的「情況1:棄牌損失1籌碼;情況2:跟注但失敗損失2籌碼」模式,完美對(duì)應(yīng)數(shù)學(xué)中的分類討論方法。模式識(shí)別:展現(xiàn)出放大效應(yīng)——游戲中35%的使用率在數(shù)學(xué)領(lǐng)域增長(zhǎng)到45%。這表明游戲訓(xùn)練增強(qiáng)了模型本就存在的數(shù)學(xué)模式識(shí)別能力。
不同游戲培養(yǎng)不同技能
實(shí)驗(yàn)發(fā)現(xiàn),不同游戲確實(shí)培養(yǎng)了專門化的認(rèn)知能力:
井字棋專家在空間推理游戲Snake上達(dá)到56%勝率。庫(kù)恩撲克大師在概率游戲PigDice上取得驚人的91.7%勝率。簡(jiǎn)單談判專家在戰(zhàn)略優(yōu)化游戲上表現(xiàn)出色。
更有趣的是,當(dāng)結(jié)合多個(gè)游戲訓(xùn)練時(shí),技能產(chǎn)生協(xié)同效應(yīng)。在Liar'sDice上,單一游戲?qū)<抑荒苓_(dá)到12-25%的勝率,而多游戲訓(xùn)練模型達(dá)到51.4%。
技術(shù)創(chuàng)新:讓自對(duì)弈穩(wěn)定高效
分布式在線多智能體強(qiáng)化學(xué)習(xí)系統(tǒng)
為了實(shí)現(xiàn)SPIRAL,研究團(tuán)隊(duì)開發(fā)了一個(gè)真正的在線多智能體、多回合強(qiáng)化學(xué)習(xí)系統(tǒng),用于微調(diào)大語(yǔ)言模型。該系統(tǒng)采用分布式actor-learner架構(gòu),能夠跨多個(gè)雙人零和語(yǔ)言游戲進(jìn)行全參數(shù)更新的在線自對(duì)弈。
角色條件優(yōu)勢(shì)估計(jì)(RAE):防止思維崩潰的關(guān)鍵
研究中一個(gè)關(guān)鍵發(fā)現(xiàn)是,沒有適當(dāng)?shù)姆讲顪p少技術(shù),模型會(huì)遭受「思維崩潰」——在200步后停止生成推理軌跡,收斂到最小輸出如「」。
bet
角色條件優(yōu)勢(shì)估計(jì)(RAE)通過為每個(gè)游戲和角色維護(hù)單獨(dú)的基線來(lái)解決這個(gè)問題。它考慮了角色特定的不對(duì)稱性(如井字棋中的先手優(yōu)勢(shì)),確保梯度更新反映真正的學(xué)習(xí)信號(hào)而不是位置固有的優(yōu)勢(shì)。
實(shí)驗(yàn)表明,沒有RAE,數(shù)學(xué)性能從35%崩潰到12%(相對(duì)下降66%),梯度范數(shù)趨近于零。RAE在整個(gè)訓(xùn)練過程中保持穩(wěn)定的梯度和推理生成。
廣泛影響:強(qiáng)模型也能受益
SPIRAL不僅對(duì)基礎(chǔ)模型有效。在DeepSeek-R1-Distill-Qwen-7B(一個(gè)已經(jīng)在推理基準(zhǔn)測(cè)試上達(dá)到59.7%的強(qiáng)大模型)上應(yīng)用多游戲SPIRAL訓(xùn)練后,性能提升到61.7%。特別值得注意的是,AIME2025的分?jǐn)?shù)從36.7%躍升至46.7%,足足提升了10個(gè)百分點(diǎn)!
這表明競(jìng)爭(zhēng)性自對(duì)弈能夠解鎖傳統(tǒng)訓(xùn)練未能捕獲的推理能力,即使在最先進(jìn)的模型中也是如此。
深入分析:為什么游戲能教會(huì)數(shù)學(xué)?
研究團(tuán)隊(duì)認(rèn)為,這種跨領(lǐng)域遷移之所以可能,有三個(gè)關(guān)鍵因素:
競(jìng)爭(zhēng)壓力剝離記憶依賴:自對(duì)弈對(duì)手不斷進(jìn)化,迫使模型發(fā)展真正的推理能力而非模式匹配。在傳統(tǒng)的監(jiān)督學(xué)習(xí)中,模型可能通過記憶特定模式來(lái)「作弊」,但在對(duì)抗不斷變化的對(duì)手時(shí),只有真正的推理策略才能持續(xù)獲勝。游戲提供純凈的推理環(huán)境:游戲規(guī)則簡(jiǎn)單明確,不需要復(fù)雜的領(lǐng)域知識(shí),讓模型能專注學(xué)習(xí)基本的認(rèn)知操作(枚舉、評(píng)估、綜合),這些操作能夠有效泛化。庫(kù)恩撲克中的「如果對(duì)手有K,我應(yīng)該棄牌」的推理結(jié)構(gòu),與數(shù)學(xué)中的條件推理具有相同的邏輯框架。結(jié)構(gòu)化輸出搭建領(lǐng)域橋梁:在游戲中學(xué)習(xí)的格式提供了一個(gè)推理支架,模型在數(shù)學(xué)問題中會(huì)重用這種結(jié)構(gòu)。這種格式化的思考過程成為了跨領(lǐng)域知識(shí)遷移的載體。
對(duì)強(qiáng)化學(xué)習(xí)研究的啟示
SPIRAL的獨(dú)特貢獻(xiàn)在于展示了游戲作為推理訓(xùn)練場(chǎng)的潛力。雖然DeepSeek-R1等模型已經(jīng)證明強(qiáng)化學(xué)習(xí)能顯著提升推理能力,但SPIRAL走得更遠(yuǎn):它完全擺脫了對(duì)數(shù)學(xué)題庫(kù)、人工評(píng)分的依賴,僅憑游戲輸贏這一簡(jiǎn)單信號(hào)就實(shí)現(xiàn)了可觀的推理提升。
研究還揭示了多智能體強(qiáng)化學(xué)習(xí)在語(yǔ)言模型訓(xùn)練中的獨(dú)特價(jià)值。與單智能體設(shè)置相比,多智能體環(huán)境提供了更豐富的學(xué)習(xí)信號(hào)和更魯棒的訓(xùn)練動(dòng)態(tài)。這為未來(lái)的研究開辟了新方向:
混合博弈類型:結(jié)合零和、合作和混合動(dòng)機(jī)游戲,可能培養(yǎng)更全面的推理能力。元游戲?qū)W習(xí):讓模型不僅玩游戲,還能創(chuàng)造新游戲,實(shí)現(xiàn)真正的創(chuàng)造性推理??缒B(tài)游戲:將語(yǔ)言游戲擴(kuò)展到包含視覺、音頻等多模態(tài)信息,培養(yǎng)更豐富的認(rèn)知能力。
實(shí)踐意義與局限性
實(shí)踐意義
對(duì)于希望提升模型推理能力的研究者和工程師,SPIRAL提供了一種全新的思路。不需要收集大量高質(zhì)量的推理數(shù)據(jù),只需要設(shè)計(jì)合適的游戲環(huán)境。研究團(tuán)隊(duì)已經(jīng)開源了完整的代碼實(shí)現(xiàn),包括分布式訓(xùn)練框架和游戲環(huán)境接口。
更重要的是,SPIRAL驗(yàn)證了一個(gè)關(guān)鍵假設(shè):預(yù)訓(xùn)練模型中已經(jīng)包含了各種推理模式,強(qiáng)化學(xué)習(xí)的作用是從這些模式中篩選和強(qiáng)化那些真正可泛化的思維鏈。這改變了我們對(duì)模型能力提升的理解。我們不是向模型灌輸新的推理方法,而是通過競(jìng)爭(zhēng)壓力讓有效的推理策略自然勝出,無(wú)效的被淘汰。游戲環(huán)境就像一個(gè)進(jìn)化選擇器,只有真正通用的推理模式才能在不斷變化的對(duì)手面前存活下來(lái)。
當(dāng)前局限
盡管取得了顯著成果,SPIRAL仍有一些局限性需要在未來(lái)工作中解決:
游戲環(huán)境依賴:雖然消除了人工策劃問題的需求,但仍需要設(shè)計(jì)游戲環(huán)境。計(jì)算資源需求:每個(gè)實(shí)驗(yàn)需要8塊H100GPU運(yùn)行25小時(shí),這對(duì)許多研究團(tuán)隊(duì)來(lái)說(shuō)是個(gè)挑戰(zhàn)。性能瓶頸:在長(zhǎng)時(shí)間訓(xùn)練后,性能提升會(huì)趨于平緩,需要新的技術(shù)突破。評(píng)估局限:當(dāng)前評(píng)估主要集中在學(xué)術(shù)基準(zhǔn)測(cè)試,對(duì)現(xiàn)實(shí)世界推理任務(wù)的影響還需進(jìn)一步驗(yàn)證。
結(jié)語(yǔ)
SPIRAL的工作不僅僅是一個(gè)技術(shù)突破,更代表了對(duì)智能本質(zhì)的新理解。它表明,復(fù)雜的推理能力可能不需要通過精心設(shè)計(jì)的課程來(lái)教授,而是可以通過簡(jiǎn)單的競(jìng)爭(zhēng)環(huán)境自然涌現(xiàn)。
當(dāng)我們看到一個(gè)只會(huì)下庫(kù)恩撲克的模型突然在數(shù)學(xué)考試中表現(xiàn)更好時(shí),我們不禁要問:智能的本質(zhì)到底是什么?也許,正如SPIRAL所展示的,智能不是關(guān)于掌握特定知識(shí),而是關(guān)于發(fā)展可以跨越領(lǐng)域邊界的思維模式。
這項(xiàng)研究為自主AI發(fā)展指明了一個(gè)充滿希望的方向。在這個(gè)方向上,AI系統(tǒng)通過相互競(jìng)爭(zhēng)不斷進(jìn)化,發(fā)現(xiàn)我們從未想象過的推理策略,最終可能超越人類設(shè)計(jì)的任何課程體系。正如研究團(tuán)隊(duì)在論文中所說(shuō):「這只是將自對(duì)弈嵌入語(yǔ)言模型訓(xùn)練的第一步嘗試。」
首推被分享過無(wú)數(shù)次的《受益一生的心理自愈術(shù)》,值得反復(fù)讀!
力薦被網(wǎng)友奉為經(jīng)典的《受益一生的心理自愈術(shù)》,值得一讀再讀!
成年人最頂級(jí)的能力:自愈力
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。