鄭從霜
還在為強(qiáng)化學(xué)習(xí)(RL)框架的擴(kuò)展性瓶頸和效率低下而煩惱嗎?當(dāng)模型和集群規(guī)模達(dá)到上千塊GPU時(shí),傳統(tǒng)的中心化控制器架構(gòu)難免會(huì)遇到性能瓶頸、內(nèi)存溢出甚至系統(tǒng)崩潰。
事實(shí)上,當(dāng)前最頂尖的基礎(chǔ)模型,從DeepSeek-R1,到o3-pro,Gemini2.5-pro和Claude-4,其卓越的推理能力都離不開大規(guī)模強(qiáng)化學(xué)習(xí)的加持。這充分表明,RLScaling已經(jīng)成為大模型領(lǐng)域邁向更高智能的“軍備競賽”核心,是大勢所趨。而xAI最近發(fā)布的Grok4,更是將這一趨勢推向了新的高度,他們直接在其擁有的200,000塊GPU大集群上,以前所未有的“后訓(xùn)練規(guī)?!眮磉\(yùn)行強(qiáng)化學(xué)習(xí),旨在精進(jìn)模型的推理能力。
Grok4和其他頂尖推理模型的成功共同揭示了一個(gè)明確的事實(shí):解決強(qiáng)化學(xué)習(xí)的擴(kuò)展性瓶頸,已不再僅僅是一個(gè)工程挑戰(zhàn),而是解鎖下一代AI高級(jí)推理能力、實(shí)現(xiàn)更強(qiáng)通用智能的關(guān)鍵所在。因此,對(duì)RLScaling的投入和研究,是未來AI發(fā)展的重要方向和核心戰(zhàn)略。
現(xiàn)在,來自上海創(chuàng)智學(xué)院的研究團(tuán)隊(duì)正式推出siiRL,一個(gè)支持大規(guī)模高效強(qiáng)化學(xué)習(xí)訓(xùn)練的RL框架!
siiRL的核心在于其創(chuàng)新的多控制器范式和全分布式架構(gòu),它將數(shù)據(jù)加載、計(jì)算和數(shù)據(jù)流轉(zhuǎn)等任務(wù)均勻地分散到所有工作節(jié)點(diǎn),從根本上解決了傳統(tǒng)RL框架中由單一控制器引發(fā)的性能瓶頸。
線性擴(kuò)展:全分布式架構(gòu)帶來近乎線性的擴(kuò)展能力,已在1024GPU規(guī)模下成功驗(yàn)證。性能再飛躍:徹底消除單點(diǎn)瓶頸,實(shí)現(xiàn)最高達(dá)到7倍的端到端訓(xùn)練吞吐提升。極致靈活:基于DAG的工作流定義,將算法邏輯與物理資源解耦,讓算法創(chuàng)新和實(shí)驗(yàn)迭代快如閃電,并且能夠更靈活的支持多智能體協(xié)同訓(xùn)練??缬布脚_(tái)兼容:siiRL現(xiàn)已正式支持華為昇騰(Ascend)NPU,為用戶提供在不同的硬件平臺(tái)上進(jìn)行RL訓(xùn)練的高性能選擇。開箱即用:全面開源,輕松部署。
論文鏈接:https://arxiv.org/abs/2507.13833代碼鏈接:https://github.com/sii-research/siiRL
傳統(tǒng)RL框架為何遭遇瓶頸?
解構(gòu)單控制器之痛
圖1:傳統(tǒng)單控制器架構(gòu)瓶頸。所有數(shù)據(jù)操作(初始加載、中間數(shù)據(jù)流轉(zhuǎn))都需經(jīng)過中心控制器,導(dǎo)致嚴(yán)重的通信開銷和擴(kuò)展限制。
在主流的強(qiáng)化學(xué)習(xí)框架中,系統(tǒng)通常采用一種混合或單一控制器架構(gòu),即由一個(gè)中心化的控制器節(jié)點(diǎn)來調(diào)度整個(gè)執(zhí)行邏輯和管理數(shù)據(jù)流。無論是初始的數(shù)據(jù)集加載,還是各計(jì)算階段間海量中間數(shù)據(jù)的收集與分發(fā),所有數(shù)據(jù)都必須流經(jīng)這個(gè)中心節(jié)點(diǎn)。
這種設(shè)計(jì)在小規(guī)模下尚可運(yùn)行,但一旦擴(kuò)展到數(shù)百乃至上千GPU,該中心節(jié)點(diǎn)就會(huì)因巨大的I/O和通信開銷而成為系統(tǒng)的性能瓶頸。更糟糕的是,海量數(shù)據(jù)很容易壓垮中心節(jié)點(diǎn)的內(nèi)存,導(dǎo)致系統(tǒng)崩潰(OOM),從根本上限制了系統(tǒng)的可擴(kuò)展性和穩(wěn)定性。此外,固化的算法流程也大大增加了研究者進(jìn)行算法創(chuàng)新的難度。
siiRL的高效秘訣:全分布式架構(gòu)
為了徹底解決上述痛點(diǎn),siiRL創(chuàng)新性地采用了全分布式架構(gòu)和多控制器范式,移除了中心節(jié)點(diǎn),將數(shù)據(jù)與計(jì)算的調(diào)度權(quán)下放到每一個(gè)工作單元。
圖2:siiRL架構(gòu)概覽
siiRL的整體設(shè)計(jì)包含三大核心組件:
a.DAGPlanner(DAG規(guī)劃器):用戶可以通過配置文件靈活定義一個(gè)代表完整RL工作流的有向無環(huán)圖(DAG)。DAGPlanner負(fù)責(zé)接收這個(gè)邏輯圖,并將其自動(dòng)解析、分解為一系列線性的執(zhí)行任務(wù),分發(fā)給每個(gè)Worker。這種設(shè)計(jì)將算法邏輯與物理執(zhí)行完全解耦,賦予了研究者極大的靈活性。
b.DAGWorker(DAG工作單元):作為框架的基本執(zhí)行單位,每個(gè)DAGWorker綁定到一個(gè)GPU,并獨(dú)立執(zhí)行由DAGPlanner分配的任務(wù)鏈。它通過動(dòng)態(tài)函數(shù)分發(fā)機(jī)制,將DAG節(jié)點(diǎn)定義(如角色、類型)與具體的計(jì)算函數(shù)實(shí)現(xiàn)解耦,使得框架極易擴(kuò)展。
c.DataCoordinator(數(shù)據(jù)協(xié)調(diào)器):它負(fù)責(zé)管理整個(gè)數(shù)據(jù)生命周期,確保數(shù)據(jù)在全分布式系統(tǒng)中的高效、正確流動(dòng)。
i.DistributedDataloader:在初始加載階段,每個(gè)Worker只加載自己所需的數(shù)據(jù)分片,通過并行加載的方式從源頭避免了單點(diǎn)瓶頸。
ii.DistributedDatabuffer:在階段轉(zhuǎn)換時(shí),當(dāng)并行策略(如數(shù)據(jù)并行度)發(fā)生變化,Databuffer會(huì)自動(dòng)完成跨節(jié)點(diǎn)的數(shù)據(jù)重組與分發(fā),確保數(shù)據(jù)流無縫銜接。
圖3:DistributedDatabuffer示意圖。當(dāng)數(shù)據(jù)并行從2(生成階段)變?yōu)?(訓(xùn)練階段)時(shí),Databuffer自動(dòng)將數(shù)據(jù)重新切分并分發(fā)給正確的Worker。
效果驗(yàn)證:速度與擴(kuò)展性雙豐收,
性能依舊強(qiáng)勁!
我們在涵蓋7B到72B的多種模型尺寸和算法上,將siiRL與當(dāng)前最主流的開源框架verl進(jìn)行了全面對(duì)比。實(shí)驗(yàn)結(jié)果證明了siiRL架構(gòu)的巨大優(yōu)勢。
在PPO和GRPO算法的端到端訓(xùn)練中,siiRL的性能全面超越基線。尤其是在數(shù)據(jù)交互量更大的GRPO算法下,siiRL實(shí)現(xiàn)了高達(dá)2.62倍的吞吐提升。值得注意的是,在訓(xùn)練72B模型時(shí),基線框架在32卡配置下便遭遇了OOM錯(cuò)誤,而siiRL則能輕松完成任務(wù)。
圖4:使用PPO(上)和GRPO(下)算法的端到端吞吐對(duì)比。siiRL(藍(lán)色)在所有模型尺寸和GPU規(guī)模上均大幅領(lǐng)先基線框架verl(紅色)。
擴(kuò)展性評(píng)估:千卡規(guī)模下的近線性擴(kuò)展
得益于全分布式設(shè)計(jì),siiRL在擴(kuò)展至1024個(gè)GPU時(shí)仍表現(xiàn)出近乎完美的線性擴(kuò)展能力。如下圖所示,在訓(xùn)練32B模型時(shí),從64卡擴(kuò)展至512卡,系統(tǒng)依然保持了80.5%的線性擴(kuò)展效率。由于基線框架在同等規(guī)模下無法運(yùn)行,我們轉(zhuǎn)而測試其所能支持的最大訓(xùn)練批次大小,在此條件下,siiRL在VLM設(shè)定下實(shí)現(xiàn)了驚人的7倍速度提升
圖5:siiRL在VLM任務(wù)上的擴(kuò)展性評(píng)估,展示了從32到1024GPU規(guī)模下的近線性擴(kuò)展能力。
圖6:siiRL和基線框架在基線框架支持最大訓(xùn)練批次下對(duì)比實(shí)驗(yàn),7B模型訓(xùn)練吞吐提升最高達(dá)到7倍。
數(shù)據(jù)密集型場景:優(yōu)勢愈發(fā)明顯
在長上下文這類數(shù)據(jù)密集型任務(wù)中,siiRL的優(yōu)勢愈發(fā)凸顯。隨著上下文長度從8k增加到64k,siiRL相對(duì)于基線的領(lǐng)先優(yōu)勢從1.48倍擴(kuò)大到2.03倍。這充分證明,數(shù)據(jù)通信量越大,siiRL的全分布式數(shù)據(jù)流設(shè)計(jì)的效率提升就越高。
圖7:長上下文性能評(píng)估。隨著上下文長度增加,siiRL(藍(lán)色)的性能優(yōu)勢愈發(fā)顯著。
收斂性驗(yàn)證:性能提升,精度無損
為了確保性能提升不以犧牲模型精度為代價(jià),我們進(jìn)行了收斂性對(duì)比實(shí)驗(yàn)。結(jié)果表明,在完全相同的超參數(shù)下,siiRL和基線框架的獎(jiǎng)勵(lì)值與熵值曲線幾乎完全重合。這意味著,siiRL在將訓(xùn)練總耗時(shí)大幅減少的同時(shí),保證了與基線完全一致的訓(xùn)練效果。
圖8:收斂性對(duì)比。siiRL與基線框架的訓(xùn)練曲線趨勢一致,證明其優(yōu)化不影響模型最終精度。
未來計(jì)劃:
我們基于DAG的靈活設(shè)計(jì),為構(gòu)建復(fù)雜的“多智能體系統(tǒng)”奠定了天然且堅(jiān)實(shí)的基礎(chǔ)。展望未來,我們計(jì)劃將多智能體支持作為系統(tǒng)的核心特性進(jìn)行重點(diǎn)拓展,這包括支持更復(fù)雜的智能體交互工作流,擴(kuò)展對(duì)多智能體強(qiáng)化學(xué)習(xí)(MARL)算法的兼容性,并實(shí)現(xiàn)更豐富的智能體與環(huán)境的交互機(jī)制,從而將我們的框架打造為一個(gè)功能全面的多智能體研發(fā)平臺(tái)。
總結(jié):
開啟大規(guī)模強(qiáng)化學(xué)習(xí)新紀(jì)元
本文介紹了siiRL,一個(gè)為解決大規(guī)模RL訓(xùn)練中的擴(kuò)展性和靈活性挑戰(zhàn)而設(shè)計(jì)的全新框架。通過創(chuàng)新的全分布式架構(gòu)和用戶自定義的DAG驅(qū)動(dòng)流程,siiRL不僅徹底解決了傳統(tǒng)單控制器設(shè)計(jì)的瓶頸問題,實(shí)現(xiàn)了千卡規(guī)模的近線性擴(kuò)展和高達(dá)7倍的吞吐提升,還極大地增強(qiáng)了框架的靈活性,加速了算法的創(chuàng)新迭代周期。
我們相信這項(xiàng)工作為大規(guī)模強(qiáng)化學(xué)習(xí)研究鋪平了道路,提供了一個(gè)更高效、更靈活、真正可擴(kuò)展的解決方案。歡迎大家試用siiRL,共同邁向大規(guī)模AI的未來!
上海創(chuàng)智學(xué)院AIInfra團(tuán)隊(duì)介紹
siiRL誕生于上海創(chuàng)智學(xué)院產(chǎn)學(xué)研一體化人才培養(yǎng)模式
團(tuán)隊(duì)成員包括來自國內(nèi)31所頂尖高校的博士生和一線大廠豐富產(chǎn)業(yè)經(jīng)驗(yàn)的導(dǎo)師,含萬卡集群建設(shè)者、中國第一批CUDA開發(fā)者、國產(chǎn)芯片優(yōu)化專家、互聯(lián)網(wǎng)大廠機(jī)器學(xué)習(xí)平臺(tái)負(fù)責(zé)人等。全鏈路開源:從硬件到框架,代碼100%開放。團(tuán)隊(duì)核心目標(biāo):讓大模型跑在中國芯,讓AGI基石全球共享。
推薦3本已完結(jié)的都市文娛類小說,攤牌了,我是大明星
1. 《當(dāng)小龍?zhí)讚碛袡M店簽到系統(tǒng)》作者:兔耳齊◆《當(dāng)小龍?zhí)讚碛袡M店簽到系統(tǒng)》作者:兔耳齊娛樂圈爽文,系統(tǒng)文。排雷:本文主要走事業(yè)線,但是有男主,感情戲份不多,男主比女主大9歲。主角:盛夏,陸恒風(fēng)_。立意:自強(qiáng)、不息、奮斗。簡介:盛夏因家中貧苦,被父母游說早點(diǎn)嫁人,她不堪逼婚,逃到橫店,成為了一說完了。
推薦3本文娛類都市小說,看主角逆襲巨星,折射娛樂圈百態(tài)
第二部、《影帝他不想當(dāng)太監(jiān)》,作者:江公子阿寶,類別:都市娛樂明星,字?jǐn)?shù):253.01萬(連載中)簡介:主角是個(gè)剛混上太監(jiān)頂點(diǎn)的東廠廠公,一覺醒來,魂穿20世紀(jì),附身到大橋下一個(gè)被凍死的落魄群演身上|。后覺醒系統(tǒng),只是系統(tǒng)檢測到主角不屬于當(dāng)前時(shí)空|。但可以通過任務(wù)或者充值藍(lán)幣獲取積分,再用積分兌換時(shí)間留在是什么|_。
推薦1本都市文娛爽文,主角從地鐵讓座開始,靠正能量殺瘋娛樂圈
主角白良前世因拒絕娛樂圈潛規(guī)則遭封殺,并重生到2015年成為魔都一名落魄男模,還與未來明星黃景瑜住在一起|。好在上天給他開了一個(gè)氣運(yùn)掛,走路能撿錢、試鏡遇貴人、危機(jī)自動(dòng)化解,讓他擁有了逆襲人生的基礎(chǔ)_。在酒吧因同行嫉妒卷入“男模打架”事件,卻意外登上了熱搜,開啟了他的流量之路——。在橫店撿到導(dǎo)演丟棄的呂布后面會(huì)介紹-——。
來源:紅網(wǎng)
作者:王書瑋
編輯:王瑤法
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。