何家美
還在為強(qiáng)化學(xué)習(xí)(RL)框架的擴(kuò)展性瓶頸和效率低下而煩惱嗎?當(dāng)模型和集群規(guī)模達(dá)到上千塊GPU時(shí),傳統(tǒng)的中心化控制器架構(gòu)難免會(huì)遇到性能瓶頸、內(nèi)存溢出甚至系統(tǒng)崩潰。
事實(shí)上,當(dāng)前最頂尖的基礎(chǔ)模型,從DeepSeek-R1,到o3-pro,Gemini2.5-pro和Claude-4,其卓越的推理能力都離不開大規(guī)模強(qiáng)化學(xué)習(xí)的加持。這充分表明,RLScaling已經(jīng)成為大模型領(lǐng)域邁向更高智能的“軍備競(jìng)賽”核心,是大勢(shì)所趨。而xAI最近發(fā)布的Grok4,更是將這一趨勢(shì)推向了新的高度,他們直接在其擁有的200,000塊GPU大集群上,以前所未有的“后訓(xùn)練規(guī)?!眮磉\(yùn)行強(qiáng)化學(xué)習(xí),旨在精進(jìn)模型的推理能力。
Grok4和其他頂尖推理模型的成功共同揭示了一個(gè)明確的事實(shí):解決強(qiáng)化學(xué)習(xí)的擴(kuò)展性瓶頸,已不再僅僅是一個(gè)工程挑戰(zhàn),而是解鎖下一代AI高級(jí)推理能力、實(shí)現(xiàn)更強(qiáng)通用智能的關(guān)鍵所在。因此,對(duì)RLScaling的投入和研究,是未來AI發(fā)展的重要方向和核心戰(zhàn)略。
現(xiàn)在,來自上海創(chuàng)智學(xué)院的研究團(tuán)隊(duì)正式推出siiRL,一個(gè)支持大規(guī)模高效強(qiáng)化學(xué)習(xí)訓(xùn)練的RL框架!
siiRL的核心在于其創(chuàng)新的多控制器范式和全分布式架構(gòu),它將數(shù)據(jù)加載、計(jì)算和數(shù)據(jù)流轉(zhuǎn)等任務(wù)均勻地分散到所有工作節(jié)點(diǎn),從根本上解決了傳統(tǒng)RL框架中由單一控制器引發(fā)的性能瓶頸。
線性擴(kuò)展:全分布式架構(gòu)帶來近乎線性的擴(kuò)展能力,已在1024GPU規(guī)模下成功驗(yàn)證。性能再飛躍:徹底消除單點(diǎn)瓶頸,實(shí)現(xiàn)最高達(dá)到7倍的端到端訓(xùn)練吞吐提升。極致靈活:基于DAG的工作流定義,將算法邏輯與物理資源解耦,讓算法創(chuàng)新和實(shí)驗(yàn)迭代快如閃電,并且能夠更靈活的支持多智能體協(xié)同訓(xùn)練??缬布脚_(tái)兼容:siiRL現(xiàn)已正式支持華為昇騰(Ascend)NPU,為用戶提供在不同的硬件平臺(tái)上進(jìn)行RL訓(xùn)練的高性能選擇。開箱即用:全面開源,輕松部署。
論文鏈接:https://arxiv.org/abs/2507.13833代碼鏈接:https://github.com/sii-research/siiRL
傳統(tǒng)RL框架為何遭遇瓶頸?
解構(gòu)單控制器之痛
圖1:傳統(tǒng)單控制器架構(gòu)瓶頸。所有數(shù)據(jù)操作(初始加載、中間數(shù)據(jù)流轉(zhuǎn))都需經(jīng)過中心控制器,導(dǎo)致嚴(yán)重的通信開銷和擴(kuò)展限制。
在主流的強(qiáng)化學(xué)習(xí)框架中,系統(tǒng)通常采用一種混合或單一控制器架構(gòu),即由一個(gè)中心化的控制器節(jié)點(diǎn)來調(diào)度整個(gè)執(zhí)行邏輯和管理數(shù)據(jù)流。無(wú)論是初始的數(shù)據(jù)集加載,還是各計(jì)算階段間海量中間數(shù)據(jù)的收集與分發(fā),所有數(shù)據(jù)都必須流經(jīng)這個(gè)中心節(jié)點(diǎn)。
這種設(shè)計(jì)在小規(guī)模下尚可運(yùn)行,但一旦擴(kuò)展到數(shù)百乃至上千GPU,該中心節(jié)點(diǎn)就會(huì)因巨大的I/O和通信開銷而成為系統(tǒng)的性能瓶頸。更糟糕的是,海量數(shù)據(jù)很容易壓垮中心節(jié)點(diǎn)的內(nèi)存,導(dǎo)致系統(tǒng)崩潰(OOM),從根本上限制了系統(tǒng)的可擴(kuò)展性和穩(wěn)定性。此外,固化的算法流程也大大增加了研究者進(jìn)行算法創(chuàng)新的難度。
siiRL的高效秘訣:全分布式架構(gòu)
為了徹底解決上述痛點(diǎn),siiRL創(chuàng)新性地采用了全分布式架構(gòu)和多控制器范式,移除了中心節(jié)點(diǎn),將數(shù)據(jù)與計(jì)算的調(diào)度權(quán)下放到每一個(gè)工作單元。
圖2:siiRL架構(gòu)概覽
siiRL的整體設(shè)計(jì)包含三大核心組件:
a.DAGPlanner(DAG規(guī)劃器):用戶可以通過配置文件靈活定義一個(gè)代表完整RL工作流的有向無(wú)環(huán)圖(DAG)。DAGPlanner負(fù)責(zé)接收這個(gè)邏輯圖,并將其自動(dòng)解析、分解為一系列線性的執(zhí)行任務(wù),分發(fā)給每個(gè)Worker。這種設(shè)計(jì)將算法邏輯與物理執(zhí)行完全解耦,賦予了研究者極大的靈活性。
b.DAGWorker(DAG工作單元):作為框架的基本執(zhí)行單位,每個(gè)DAGWorker綁定到一個(gè)GPU,并獨(dú)立執(zhí)行由DAGPlanner分配的任務(wù)鏈。它通過動(dòng)態(tài)函數(shù)分發(fā)機(jī)制,將DAG節(jié)點(diǎn)定義(如角色、類型)與具體的計(jì)算函數(shù)實(shí)現(xiàn)解耦,使得框架極易擴(kuò)展。
c.DataCoordinator(數(shù)據(jù)協(xié)調(diào)器):它負(fù)責(zé)管理整個(gè)數(shù)據(jù)生命周期,確保數(shù)據(jù)在全分布式系統(tǒng)中的高效、正確流動(dòng)。
i.DistributedDataloader:在初始加載階段,每個(gè)Worker只加載自己所需的數(shù)據(jù)分片,通過并行加載的方式從源頭避免了單點(diǎn)瓶頸。
ii.DistributedDatabuffer:在階段轉(zhuǎn)換時(shí),當(dāng)并行策略(如數(shù)據(jù)并行度)發(fā)生變化,Databuffer會(huì)自動(dòng)完成跨節(jié)點(diǎn)的數(shù)據(jù)重組與分發(fā),確保數(shù)據(jù)流無(wú)縫銜接。
圖3:DistributedDatabuffer示意圖。當(dāng)數(shù)據(jù)并行從2(生成階段)變?yōu)?(訓(xùn)練階段)時(shí),Databuffer自動(dòng)將數(shù)據(jù)重新切分并分發(fā)給正確的Worker。
效果驗(yàn)證:速度與擴(kuò)展性雙豐收,
性能依舊強(qiáng)勁!
我們?cè)诤w7B到72B的多種模型尺寸和算法上,將siiRL與當(dāng)前最主流的開源框架verl進(jìn)行了全面對(duì)比。實(shí)驗(yàn)結(jié)果證明了siiRL架構(gòu)的巨大優(yōu)勢(shì)。
在PPO和GRPO算法的端到端訓(xùn)練中,siiRL的性能全面超越基線。尤其是在數(shù)據(jù)交互量更大的GRPO算法下,siiRL實(shí)現(xiàn)了高達(dá)2.62倍的吞吐提升。值得注意的是,在訓(xùn)練72B模型時(shí),基線框架在32卡配置下便遭遇了OOM錯(cuò)誤,而siiRL則能輕松完成任務(wù)。
圖4:使用PPO(上)和GRPO(下)算法的端到端吞吐對(duì)比。siiRL(藍(lán)色)在所有模型尺寸和GPU規(guī)模上均大幅領(lǐng)先基線框架verl(紅色)。
擴(kuò)展性評(píng)估:千卡規(guī)模下的近線性擴(kuò)展
得益于全分布式設(shè)計(jì),siiRL在擴(kuò)展至1024個(gè)GPU時(shí)仍表現(xiàn)出近乎完美的線性擴(kuò)展能力。如下圖所示,在訓(xùn)練32B模型時(shí),從64卡擴(kuò)展至512卡,系統(tǒng)依然保持了80.5%的線性擴(kuò)展效率。由于基線框架在同等規(guī)模下無(wú)法運(yùn)行,我們轉(zhuǎn)而測(cè)試其所能支持的最大訓(xùn)練批次大小,在此條件下,siiRL在VLM設(shè)定下實(shí)現(xiàn)了驚人的7倍速度提升
圖5:siiRL在VLM任務(wù)上的擴(kuò)展性評(píng)估,展示了從32到1024GPU規(guī)模下的近線性擴(kuò)展能力。
圖6:siiRL和基線框架在基線框架支持最大訓(xùn)練批次下對(duì)比實(shí)驗(yàn),7B模型訓(xùn)練吞吐提升最高達(dá)到7倍。
數(shù)據(jù)密集型場(chǎng)景:優(yōu)勢(shì)愈發(fā)明顯
在長(zhǎng)上下文這類數(shù)據(jù)密集型任務(wù)中,siiRL的優(yōu)勢(shì)愈發(fā)凸顯。隨著上下文長(zhǎng)度從8k增加到64k,siiRL相對(duì)于基線的領(lǐng)先優(yōu)勢(shì)從1.48倍擴(kuò)大到2.03倍。這充分證明,數(shù)據(jù)通信量越大,siiRL的全分布式數(shù)據(jù)流設(shè)計(jì)的效率提升就越高。
圖7:長(zhǎng)上下文性能評(píng)估。隨著上下文長(zhǎng)度增加,siiRL(藍(lán)色)的性能優(yōu)勢(shì)愈發(fā)顯著。
收斂性驗(yàn)證:性能提升,精度無(wú)損
為了確保性能提升不以犧牲模型精度為代價(jià),我們進(jìn)行了收斂性對(duì)比實(shí)驗(yàn)。結(jié)果表明,在完全相同的超參數(shù)下,siiRL和基線框架的獎(jiǎng)勵(lì)值與熵值曲線幾乎完全重合。這意味著,siiRL在將訓(xùn)練總耗時(shí)大幅減少的同時(shí),保證了與基線完全一致的訓(xùn)練效果。
圖8:收斂性對(duì)比。siiRL與基線框架的訓(xùn)練曲線趨勢(shì)一致,證明其優(yōu)化不影響模型最終精度。
未來計(jì)劃:
我們基于DAG的靈活設(shè)計(jì),為構(gòu)建復(fù)雜的“多智能體系統(tǒng)”奠定了天然且堅(jiān)實(shí)的基礎(chǔ)。展望未來,我們計(jì)劃將多智能體支持作為系統(tǒng)的核心特性進(jìn)行重點(diǎn)拓展,這包括支持更復(fù)雜的智能體交互工作流,擴(kuò)展對(duì)多智能體強(qiáng)化學(xué)習(xí)(MARL)算法的兼容性,并實(shí)現(xiàn)更豐富的智能體與環(huán)境的交互機(jī)制,從而將我們的框架打造為一個(gè)功能全面的多智能體研發(fā)平臺(tái)。
總結(jié):
開啟大規(guī)模強(qiáng)化學(xué)習(xí)新紀(jì)元
本文介紹了siiRL,一個(gè)為解決大規(guī)模RL訓(xùn)練中的擴(kuò)展性和靈活性挑戰(zhàn)而設(shè)計(jì)的全新框架。通過創(chuàng)新的全分布式架構(gòu)和用戶自定義的DAG驅(qū)動(dòng)流程,siiRL不僅徹底解決了傳統(tǒng)單控制器設(shè)計(jì)的瓶頸問題,實(shí)現(xiàn)了千卡規(guī)模的近線性擴(kuò)展和高達(dá)7倍的吞吐提升,還極大地增強(qiáng)了框架的靈活性,加速了算法的創(chuàng)新迭代周期。
我們相信這項(xiàng)工作為大規(guī)模強(qiáng)化學(xué)習(xí)研究鋪平了道路,提供了一個(gè)更高效、更靈活、真正可擴(kuò)展的解決方案。歡迎大家試用siiRL,共同邁向大規(guī)模AI的未來!
上海創(chuàng)智學(xué)院AIInfra團(tuán)隊(duì)介紹
siiRL誕生于上海創(chuàng)智學(xué)院產(chǎn)學(xué)研一體化人才培養(yǎng)模式
團(tuán)隊(duì)成員包括來自國(guó)內(nèi)31所頂尖高校的博士生和一線大廠豐富產(chǎn)業(yè)經(jīng)驗(yàn)的導(dǎo)師,含萬(wàn)卡集群建設(shè)者、中國(guó)第一批CUDA開發(fā)者、國(guó)產(chǎn)芯片優(yōu)化專家、互聯(lián)網(wǎng)大廠機(jī)器學(xué)習(xí)平臺(tái)負(fù)責(zé)人等。全鏈路開源:從硬件到框架,代碼100%開放。團(tuán)隊(duì)核心目標(biāo):讓大模型跑在中國(guó)芯,讓AGI基石全球共享。
好不容易混到上億身價(jià),眨眼把我送回1987?姐卷土重來
第三本:《重生八零:麻辣小福妻》作者:瑤華簡(jiǎn)介:《重生八零:麻辣小福妻》她下鄉(xiāng)當(dāng)知青,嫁軍官連孕三子被寵上天-。王玉瑩前一世在商界拼搏數(shù)十年,終于混到人生顛覆,擁有上億身價(jià)。卻不料一覺醒來回到1987年,被迫換親,被“家人”強(qiáng)行塞入婚車……入坑指南:就在這個(gè)時(shí)候,一一個(gè)身穿皮夾克,腳踏軍勾鞋,..
軍嫂:一覺醒來,她躺在英俊首長(zhǎng)身旁,肚里揣個(gè)軍娃空間還有軍糧
第一本:《重生八零:麻辣小福妻》作者:瑤華簡(jiǎn)介:王玉瑩前一世在商界拼搏數(shù)十年,終于混到人生顛覆,擁有上億身價(jià)。卻不料一覺醒來回到1987年,被迫換親,被“家人”強(qiáng)行塞入婚車……,逃跑路上,巧遇前世戀人蘇之燮,從此被他寵上天——-。蘇少爺人帥多金功夫好,唯獨(dú)是個(gè)懼內(nèi)的-_?!班?,媳婦兒,家里事情您說得算希望你能滿意-|。
重生文:重生回到四年前,她得空間,嫁首長(zhǎng),賺大錢,日子美滋滋
第一本:《重生八零:麻辣小福妻》作者:瑤華“簡(jiǎn)介:王玉瑩前一世在商界拼搏數(shù)十年,終于混到人生顛峰,擁有上億身價(jià)_-。卻不料一覺醒來回到1987年,被迫換親,被“家人”強(qiáng)行塞入婚車……,逃跑路上,巧遇前世戀人蘇之燮,從此被他寵上天。蘇少爺人帥多金功夫。”入坑指南:王玉瑩怕抓,走得特快,在拐角處一個(gè)不還有呢?
來源:紅網(wǎng)
作者:茂哲瀚
編輯:連育如
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。