呼菱華
還在為強化學習(RL)框架的擴展性瓶頸和效率低下而煩惱嗎?當模型和集群規(guī)模達到上千塊GPU時,傳統(tǒng)的中心化控制器架構難免會遇到性能瓶頸、內(nèi)存溢出甚至系統(tǒng)崩潰。
事實上,當前最頂尖的基礎模型,從DeepSeek-R1,到o3-pro,Gemini2.5-pro和Claude-4,其卓越的推理能力都離不開大規(guī)模強化學習的加持。這充分表明,RLScaling已經(jīng)成為大模型領域邁向更高智能的“軍備競賽”核心,是大勢所趨。而xAI最近發(fā)布的Grok4,更是將這一趨勢推向了新的高度,他們直接在其擁有的200,000塊GPU大集群上,以前所未有的“后訓練規(guī)?!眮磉\行強化學習,旨在精進模型的推理能力。
Grok4和其他頂尖推理模型的成功共同揭示了一個明確的事實:解決強化學習的擴展性瓶頸,已不再僅僅是一個工程挑戰(zhàn),而是解鎖下一代AI高級推理能力、實現(xiàn)更強通用智能的關鍵所在。因此,對RLScaling的投入和研究,是未來AI發(fā)展的重要方向和核心戰(zhàn)略。
現(xiàn)在,來自上海創(chuàng)智學院的研究團隊正式推出siiRL,一個支持大規(guī)模高效強化學習訓練的RL框架!
siiRL的核心在于其創(chuàng)新的多控制器范式和全分布式架構,它將數(shù)據(jù)加載、計算和數(shù)據(jù)流轉等任務均勻地分散到所有工作節(jié)點,從根本上解決了傳統(tǒng)RL框架中由單一控制器引發(fā)的性能瓶頸。
線性擴展:全分布式架構帶來近乎線性的擴展能力,已在1024GPU規(guī)模下成功驗證。性能再飛躍:徹底消除單點瓶頸,實現(xiàn)最高達到7倍的端到端訓練吞吐提升。極致靈活:基于DAG的工作流定義,將算法邏輯與物理資源解耦,讓算法創(chuàng)新和實驗迭代快如閃電,并且能夠更靈活的支持多智能體協(xié)同訓練??缬布脚_兼容:siiRL現(xiàn)已正式支持華為昇騰(Ascend)NPU,為用戶提供在不同的硬件平臺上進行RL訓練的高性能選擇。開箱即用:全面開源,輕松部署。
論文鏈接:https://arxiv.org/abs/2507.13833代碼鏈接:https://github.com/sii-research/siiRL
傳統(tǒng)RL框架為何遭遇瓶頸?
解構單控制器之痛
圖1:傳統(tǒng)單控制器架構瓶頸。所有數(shù)據(jù)操作(初始加載、中間數(shù)據(jù)流轉)都需經(jīng)過中心控制器,導致嚴重的通信開銷和擴展限制。
在主流的強化學習框架中,系統(tǒng)通常采用一種混合或單一控制器架構,即由一個中心化的控制器節(jié)點來調(diào)度整個執(zhí)行邏輯和管理數(shù)據(jù)流。無論是初始的數(shù)據(jù)集加載,還是各計算階段間海量中間數(shù)據(jù)的收集與分發(fā),所有數(shù)據(jù)都必須流經(jīng)這個中心節(jié)點。
這種設計在小規(guī)模下尚可運行,但一旦擴展到數(shù)百乃至上千GPU,該中心節(jié)點就會因巨大的I/O和通信開銷而成為系統(tǒng)的性能瓶頸。更糟糕的是,海量數(shù)據(jù)很容易壓垮中心節(jié)點的內(nèi)存,導致系統(tǒng)崩潰(OOM),從根本上限制了系統(tǒng)的可擴展性和穩(wěn)定性。此外,固化的算法流程也大大增加了研究者進行算法創(chuàng)新的難度。
siiRL的高效秘訣:全分布式架構
為了徹底解決上述痛點,siiRL創(chuàng)新性地采用了全分布式架構和多控制器范式,移除了中心節(jié)點,將數(shù)據(jù)與計算的調(diào)度權下放到每一個工作單元。
圖2:siiRL架構概覽
siiRL的整體設計包含三大核心組件:
a.DAGPlanner(DAG規(guī)劃器):用戶可以通過配置文件靈活定義一個代表完整RL工作流的有向無環(huán)圖(DAG)。DAGPlanner負責接收這個邏輯圖,并將其自動解析、分解為一系列線性的執(zhí)行任務,分發(fā)給每個Worker。這種設計將算法邏輯與物理執(zhí)行完全解耦,賦予了研究者極大的靈活性。
b.DAGWorker(DAG工作單元):作為框架的基本執(zhí)行單位,每個DAGWorker綁定到一個GPU,并獨立執(zhí)行由DAGPlanner分配的任務鏈。它通過動態(tài)函數(shù)分發(fā)機制,將DAG節(jié)點定義(如角色、類型)與具體的計算函數(shù)實現(xiàn)解耦,使得框架極易擴展。
c.DataCoordinator(數(shù)據(jù)協(xié)調(diào)器):它負責管理整個數(shù)據(jù)生命周期,確保數(shù)據(jù)在全分布式系統(tǒng)中的高效、正確流動。
i.DistributedDataloader:在初始加載階段,每個Worker只加載自己所需的數(shù)據(jù)分片,通過并行加載的方式從源頭避免了單點瓶頸。
ii.DistributedDatabuffer:在階段轉換時,當并行策略(如數(shù)據(jù)并行度)發(fā)生變化,Databuffer會自動完成跨節(jié)點的數(shù)據(jù)重組與分發(fā),確保數(shù)據(jù)流無縫銜接。
圖3:DistributedDatabuffer示意圖。當數(shù)據(jù)并行從2(生成階段)變?yōu)?(訓練階段)時,Databuffer自動將數(shù)據(jù)重新切分并分發(fā)給正確的Worker。
效果驗證:速度與擴展性雙豐收,
性能依舊強勁!
我們在涵蓋7B到72B的多種模型尺寸和算法上,將siiRL與當前最主流的開源框架verl進行了全面對比。實驗結果證明了siiRL架構的巨大優(yōu)勢。
在PPO和GRPO算法的端到端訓練中,siiRL的性能全面超越基線。尤其是在數(shù)據(jù)交互量更大的GRPO算法下,siiRL實現(xiàn)了高達2.62倍的吞吐提升。值得注意的是,在訓練72B模型時,基線框架在32卡配置下便遭遇了OOM錯誤,而siiRL則能輕松完成任務。
圖4:使用PPO(上)和GRPO(下)算法的端到端吞吐對比。siiRL(藍色)在所有模型尺寸和GPU規(guī)模上均大幅領先基線框架verl(紅色)。
擴展性評估:千卡規(guī)模下的近線性擴展
得益于全分布式設計,siiRL在擴展至1024個GPU時仍表現(xiàn)出近乎完美的線性擴展能力。如下圖所示,在訓練32B模型時,從64卡擴展至512卡,系統(tǒng)依然保持了80.5%的線性擴展效率。由于基線框架在同等規(guī)模下無法運行,我們轉而測試其所能支持的最大訓練批次大小,在此條件下,siiRL在VLM設定下實現(xiàn)了驚人的7倍速度提升
圖5:siiRL在VLM任務上的擴展性評估,展示了從32到1024GPU規(guī)模下的近線性擴展能力。
圖6:siiRL和基線框架在基線框架支持最大訓練批次下對比實驗,7B模型訓練吞吐提升最高達到7倍。
數(shù)據(jù)密集型場景:優(yōu)勢愈發(fā)明顯
在長上下文這類數(shù)據(jù)密集型任務中,siiRL的優(yōu)勢愈發(fā)凸顯。隨著上下文長度從8k增加到64k,siiRL相對于基線的領先優(yōu)勢從1.48倍擴大到2.03倍。這充分證明,數(shù)據(jù)通信量越大,siiRL的全分布式數(shù)據(jù)流設計的效率提升就越高。
圖7:長上下文性能評估。隨著上下文長度增加,siiRL(藍色)的性能優(yōu)勢愈發(fā)顯著。
收斂性驗證:性能提升,精度無損
為了確保性能提升不以犧牲模型精度為代價,我們進行了收斂性對比實驗。結果表明,在完全相同的超參數(shù)下,siiRL和基線框架的獎勵值與熵值曲線幾乎完全重合。這意味著,siiRL在將訓練總耗時大幅減少的同時,保證了與基線完全一致的訓練效果。
圖8:收斂性對比。siiRL與基線框架的訓練曲線趨勢一致,證明其優(yōu)化不影響模型最終精度。
未來計劃:
我們基于DAG的靈活設計,為構建復雜的“多智能體系統(tǒng)”奠定了天然且堅實的基礎。展望未來,我們計劃將多智能體支持作為系統(tǒng)的核心特性進行重點拓展,這包括支持更復雜的智能體交互工作流,擴展對多智能體強化學習(MARL)算法的兼容性,并實現(xiàn)更豐富的智能體與環(huán)境的交互機制,從而將我們的框架打造為一個功能全面的多智能體研發(fā)平臺。
總結:
開啟大規(guī)模強化學習新紀元
本文介紹了siiRL,一個為解決大規(guī)模RL訓練中的擴展性和靈活性挑戰(zhàn)而設計的全新框架。通過創(chuàng)新的全分布式架構和用戶自定義的DAG驅動流程,siiRL不僅徹底解決了傳統(tǒng)單控制器設計的瓶頸問題,實現(xiàn)了千卡規(guī)模的近線性擴展和高達7倍的吞吐提升,還極大地增強了框架的靈活性,加速了算法的創(chuàng)新迭代周期。
我們相信這項工作為大規(guī)模強化學習研究鋪平了道路,提供了一個更高效、更靈活、真正可擴展的解決方案。歡迎大家試用siiRL,共同邁向大規(guī)模AI的未來!
上海創(chuàng)智學院AIInfra團隊介紹
siiRL誕生于上海創(chuàng)智學院產(chǎn)學研一體化人才培養(yǎng)模式
團隊成員包括來自國內(nèi)31所頂尖高校的博士生和一線大廠豐富產(chǎn)業(yè)經(jīng)驗的導師,含萬卡集群建設者、中國第一批CUDA開發(fā)者、國產(chǎn)芯片優(yōu)化專家、互聯(lián)網(wǎng)大廠機器學習平臺負責人等。全鏈路開源:從硬件到框架,代碼100%開放。團隊核心目標:讓大模型跑在中國芯,讓AGI基石全球共享。
來源:紅網(wǎng)
作者:胡紹卿
編輯:求弘闊
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉載請附原文出處鏈接和本聲明。