黃國妹
本論文由新加坡國立大學、A*STAR前沿人工智能研究中心、東北大學、SeaAILab、PlasticLabs、華盛頓大學的研究者合作完成。劉博、LeonGuertler、余知樂、劉梓辰為論文共同第一作者。劉博是新加坡國立大學博士生,研究方向為可擴展的自主提升,致力于構(gòu)建能在未知環(huán)境中智能決策的自主智能體。LeonGuertler是A*STAR前沿人工智能研究中心研究員,專注于小型高效語言模型研究。余知樂是東北大學博士生,研究方向為語言模型的對齊和后訓練。劉梓辰是新加坡國立大學和SeaAILab的聯(lián)合培養(yǎng)博士生,主要研究語言模型的強化學習訓練。通訊作者NatashaJaques是華盛頓大學教授,在人機交互和多智能體強化學習領(lǐng)域有深厚造詣。
近年來,OpenAIo1和DeepSeek-R1等模型的成功證明了強化學習能夠顯著提升語言模型的推理能力。通過基于結(jié)果的獎勵機制,強化學習使模型能夠發(fā)展出可泛化的推理策略,在復雜問題上取得了監(jiān)督微調(diào)難以企及的進展。
然而,當前的推理增強方法面臨著根本性的可擴展性瓶頸:它們嚴重依賴精心設(shè)計的獎勵函數(shù)、特定領(lǐng)域的數(shù)據(jù)集和專家監(jiān)督。每個新的推理領(lǐng)域都需要專家制定評估指標、策劃訓練問題。這種人工密集的過程在追求更通用智能的道路上變得越來越不可持續(xù)。
來自新加坡國立大學、A*STAR、東北大學等機構(gòu)的聯(lián)合研究團隊提出了SPIRAL(Self-Playonzero-sumgamesIncentivizesReasoningviamulti-Agentmulti-turnreinforcementLearning),通過讓模型在零和游戲中與自己對弈,自主發(fā)現(xiàn)并強化可泛化的推理模式,完全擺脫了對人工監(jiān)督的依賴。
論文標題:SPIRAL:Self-PlayonZero-SumGamesIncentivizesReasoningviaMulti-AgentMulti-TurnReinforcementLearning論文鏈接:https://huggingface.co/papers/2506.24119代碼鏈接:https://github.com/spiral-rl/spiral
游戲作為推理訓練場:從撲克到數(shù)學的驚人跨越
研究團隊的核心洞察是:如果強化學習能夠從預訓練語言模型中選擇出可泛化的思維鏈(Chain-of-Thought,CoT)模式,那么游戲為這一過程提供了完美的試煉場:它們通過輸贏結(jié)果提供廉價、可驗證的獎勵,無需人工標注。通過在這些游戲上進行自對弈,強化學習能夠自動發(fā)現(xiàn)哪些CoT模式在多樣化的競爭場景中獲得成功,并逐步強化這些模式,創(chuàng)造了一個自主的推理能力提升系統(tǒng)。
最令人驚訝的發(fā)現(xiàn)是:僅通過庫恩撲克(KuhnPoker)訓練,模型的數(shù)學推理能力平均提升了8.7%,在MinervaMath基準測試上更是躍升了18.1個百分點!要知道,在整個訓練過程中,模型從未見過任何數(shù)學題目、方程式或?qū)W術(shù)問題。
SPIRAL框架:讓競爭驅(qū)動智能涌現(xiàn)
多回合零和游戲的獨特價值
SPIRAL選擇了三種具有不同認知需求的游戲作為訓練環(huán)境:
井字棋(TicTacToe):需要空間模式識別和對抗性規(guī)劃。玩家必須識別獲勝配置、阻止對手威脅并規(guī)劃多步策略。研究團隊假設(shè)這些技能會遷移到幾何問題求解和空間可視化任務。庫恩撲克(KuhnPoker):一個最小化的撲克變體,只有三張牌(J、Q、K),玩家在隱藏信息下進行下注。成功需要概率計算、對手建模和不確定性下的決策。這些能力預期會遷移到涉及概率、期望值和戰(zhàn)略不確定性的問題。簡單談判(SimpleNegotiation):一個資源交易游戲,兩個玩家交換具有相反估值的木材和黃金以最大化投資組合價值。成功需要多步規(guī)劃、心智理論建模和通過提議與反提議進行戰(zhàn)略溝通。
自對弈的魔力:永不停歇的進化
與固定對手訓練相比,自對弈具有獨特優(yōu)勢。研究發(fā)現(xiàn):
對抗強大的固定對手(Gemini-2.0-Flash-Lite):初始勝率為0%(無學習信號),最終停滯在62.5%(開發(fā)出固定的對抗策略)。對抗隨機對手:完全崩潰,由于「回合詛咒」使得完成有效游戲變得極其困難。自對弈:始終保持50-52%的勝率,確認對手與學習者完美同步進化。
這種自適應的難度調(diào)整是關(guān)鍵所在。隨著模型改進,它的對手也在改進,創(chuàng)造了一個自動調(diào)整的課程體系。
從游戲到數(shù)學:推理模式的神奇遷移
三種核心推理模式的發(fā)現(xiàn)
通過分析數(shù)千個游戲軌跡和數(shù)學解題過程,研究團隊發(fā)現(xiàn)了三種在游戲中產(chǎn)生并遷移到數(shù)學推理的核心模式:
期望值計算:在游戲中從15%增長到78%的使用率,遷移到數(shù)學問題時保持28%的使用率。例如,在撲克中計算「跟注的期望值=獲勝概率×2-失敗概率×2」,這種思維直接應用于數(shù)學中的概率和優(yōu)化問題。逐案分析:在撲克決策中出現(xiàn)率達72%,以71%的高保真度遷移到數(shù)學問題求解。游戲中的「情況1:棄牌損失1籌碼;情況2:跟注但失敗損失2籌碼」模式,完美對應數(shù)學中的分類討論方法。模式識別:展現(xiàn)出放大效應——游戲中35%的使用率在數(shù)學領(lǐng)域增長到45%。這表明游戲訓練增強了模型本就存在的數(shù)學模式識別能力。
不同游戲培養(yǎng)不同技能
實驗發(fā)現(xiàn),不同游戲確實培養(yǎng)了專門化的認知能力:
井字棋專家在空間推理游戲Snake上達到56%勝率。庫恩撲克大師在概率游戲PigDice上取得驚人的91.7%勝率。簡單談判專家在戰(zhàn)略優(yōu)化游戲上表現(xiàn)出色。
更有趣的是,當結(jié)合多個游戲訓練時,技能產(chǎn)生協(xié)同效應。在Liar'sDice上,單一游戲?qū)<抑荒苓_到12-25%的勝率,而多游戲訓練模型達到51.4%。
技術(shù)創(chuàng)新:讓自對弈穩(wěn)定高效
分布式在線多智能體強化學習系統(tǒng)
為了實現(xiàn)SPIRAL,研究團隊開發(fā)了一個真正的在線多智能體、多回合強化學習系統(tǒng),用于微調(diào)大語言模型。該系統(tǒng)采用分布式actor-learner架構(gòu),能夠跨多個雙人零和語言游戲進行全參數(shù)更新的在線自對弈。
角色條件優(yōu)勢估計(RAE):防止思維崩潰的關(guān)鍵
研究中一個關(guān)鍵發(fā)現(xiàn)是,沒有適當?shù)姆讲顪p少技術(shù),模型會遭受「思維崩潰」——在200步后停止生成推理軌跡,收斂到最小輸出如「」。
bet
角色條件優(yōu)勢估計(RAE)通過為每個游戲和角色維護單獨的基線來解決這個問題。它考慮了角色特定的不對稱性(如井字棋中的先手優(yōu)勢),確保梯度更新反映真正的學習信號而不是位置固有的優(yōu)勢。
實驗表明,沒有RAE,數(shù)學性能從35%崩潰到12%(相對下降66%),梯度范數(shù)趨近于零。RAE在整個訓練過程中保持穩(wěn)定的梯度和推理生成。
廣泛影響:強模型也能受益
SPIRAL不僅對基礎(chǔ)模型有效。在DeepSeek-R1-Distill-Qwen-7B(一個已經(jīng)在推理基準測試上達到59.7%的強大模型)上應用多游戲SPIRAL訓練后,性能提升到61.7%。特別值得注意的是,AIME2025的分數(shù)從36.7%躍升至46.7%,足足提升了10個百分點!
這表明競爭性自對弈能夠解鎖傳統(tǒng)訓練未能捕獲的推理能力,即使在最先進的模型中也是如此。
深入分析:為什么游戲能教會數(shù)學?
研究團隊認為,這種跨領(lǐng)域遷移之所以可能,有三個關(guān)鍵因素:
競爭壓力剝離記憶依賴:自對弈對手不斷進化,迫使模型發(fā)展真正的推理能力而非模式匹配。在傳統(tǒng)的監(jiān)督學習中,模型可能通過記憶特定模式來「作弊」,但在對抗不斷變化的對手時,只有真正的推理策略才能持續(xù)獲勝。游戲提供純凈的推理環(huán)境:游戲規(guī)則簡單明確,不需要復雜的領(lǐng)域知識,讓模型能專注學習基本的認知操作(枚舉、評估、綜合),這些操作能夠有效泛化。庫恩撲克中的「如果對手有K,我應該棄牌」的推理結(jié)構(gòu),與數(shù)學中的條件推理具有相同的邏輯框架。結(jié)構(gòu)化輸出搭建領(lǐng)域橋梁:在游戲中學習的格式提供了一個推理支架,模型在數(shù)學問題中會重用這種結(jié)構(gòu)。這種格式化的思考過程成為了跨領(lǐng)域知識遷移的載體。
對強化學習研究的啟示
SPIRAL的獨特貢獻在于展示了游戲作為推理訓練場的潛力。雖然DeepSeek-R1等模型已經(jīng)證明強化學習能顯著提升推理能力,但SPIRAL走得更遠:它完全擺脫了對數(shù)學題庫、人工評分的依賴,僅憑游戲輸贏這一簡單信號就實現(xiàn)了可觀的推理提升。
研究還揭示了多智能體強化學習在語言模型訓練中的獨特價值。與單智能體設(shè)置相比,多智能體環(huán)境提供了更豐富的學習信號和更魯棒的訓練動態(tài)。這為未來的研究開辟了新方向:
混合博弈類型:結(jié)合零和、合作和混合動機游戲,可能培養(yǎng)更全面的推理能力。元游戲?qū)W習:讓模型不僅玩游戲,還能創(chuàng)造新游戲,實現(xiàn)真正的創(chuàng)造性推理。跨模態(tài)游戲:將語言游戲擴展到包含視覺、音頻等多模態(tài)信息,培養(yǎng)更豐富的認知能力。
實踐意義與局限性
實踐意義
對于希望提升模型推理能力的研究者和工程師,SPIRAL提供了一種全新的思路。不需要收集大量高質(zhì)量的推理數(shù)據(jù),只需要設(shè)計合適的游戲環(huán)境。研究團隊已經(jīng)開源了完整的代碼實現(xiàn),包括分布式訓練框架和游戲環(huán)境接口。
更重要的是,SPIRAL驗證了一個關(guān)鍵假設(shè):預訓練模型中已經(jīng)包含了各種推理模式,強化學習的作用是從這些模式中篩選和強化那些真正可泛化的思維鏈。這改變了我們對模型能力提升的理解。我們不是向模型灌輸新的推理方法,而是通過競爭壓力讓有效的推理策略自然勝出,無效的被淘汰。游戲環(huán)境就像一個進化選擇器,只有真正通用的推理模式才能在不斷變化的對手面前存活下來。
當前局限
盡管取得了顯著成果,SPIRAL仍有一些局限性需要在未來工作中解決:
游戲環(huán)境依賴:雖然消除了人工策劃問題的需求,但仍需要設(shè)計游戲環(huán)境。計算資源需求:每個實驗需要8塊H100GPU運行25小時,這對許多研究團隊來說是個挑戰(zhàn)。性能瓶頸:在長時間訓練后,性能提升會趨于平緩,需要新的技術(shù)突破。評估局限:當前評估主要集中在學術(shù)基準測試,對現(xiàn)實世界推理任務的影響還需進一步驗證。
結(jié)語
SPIRAL的工作不僅僅是一個技術(shù)突破,更代表了對智能本質(zhì)的新理解。它表明,復雜的推理能力可能不需要通過精心設(shè)計的課程來教授,而是可以通過簡單的競爭環(huán)境自然涌現(xiàn)。
當我們看到一個只會下庫恩撲克的模型突然在數(shù)學考試中表現(xiàn)更好時,我們不禁要問:智能的本質(zhì)到底是什么?也許,正如SPIRAL所展示的,智能不是關(guān)于掌握特定知識,而是關(guān)于發(fā)展可以跨越領(lǐng)域邊界的思維模式。
這項研究為自主AI發(fā)展指明了一個充滿希望的方向。在這個方向上,AI系統(tǒng)通過相互競爭不斷進化,發(fā)現(xiàn)我們從未想象過的推理策略,最終可能超越人類設(shè)計的任何課程體系。正如研究團隊在論文中所說:「這只是將自對弈嵌入語言模型訓練的第一步嘗試?!?/p>京城頭條預定——炙手可熱的青年新貴陸大人 竟求娶聲名狼藉的紈绔千金 當事人江·紈绔·雨柔 是他眼拙還是我運氣爆棚 當事人陸·神仙·沉淵: 是我心悅你 身為金陵陸氏親族, 陸沉淵自小就知道自己的使命——臣明君 辨是非、 明曲直。 十年禁苑, 他封閉山門, 磨心勵性, 不問世事, 只守忠貞。 直到第七年冬, 他從山間小道撿回一個昏迷的小姑娘 身為驃騎大將軍之女, 江雨柔從小天不怕地不怕, 立志要做一代女俠。 可自她從昏迷中醒來后, 望見那個謫仙般的少年, 她頭一次知曉心動的感覺。 他冷臉相對, 她卻大膽靠近, 少女心事毫不掩蓋。 沒想到大姐突亡, 她匆忙下山, 竟意外失去了這段記憶…… 七年后再遇——大姐身亡疑點重重, 阻礙不斷, 她一心調(diào)查真相, 卻還是在那人靠近的時候心動了。 你看, 即便我什么都不記得, 我還是喜歡上了你。
來源:紅網(wǎng)
作者:秋興運
編輯:張博均
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。