時令發(fā)自凹非寺量子位|公眾號QbitAI
通義千問一周開源三連暴擊,背后殺手锏官方來揭秘了:
強化學習新算法GSPO
同等算力下,訓練效率碾壓GRPO,準確率和性能飆升。
背后的核心創(chuàng)新在于:GSPO定義了序列級別的重要性比率,并在序列層面執(zhí)行裁剪、獎勵和優(yōu)化。
此算法一出,便迅速引發(fā)了人們對其在其他模型中應用效果的期待。
序列級優(yōu)化目標
相較于GRPO,GSPO有三大突出優(yōu)勢:
強大高效:GSPO具備顯著更高的訓練效率,并且能夠通過增加計算獲得持續(xù)的性能提升;
穩(wěn)定性出色:GSPO能夠保持穩(wěn)定的訓練過程,并且根本地解決了混合專家(Mixture-of-Experts,MoE)模型的RL訓練穩(wěn)定性問題;
基礎設施友好:由于在序列層面執(zhí)行優(yōu)化,GSPO原則上對精度容忍度更高,具有簡化RL基礎設施的誘人前景。
而這一切優(yōu)勢的背后,正是GSPO在設計上所引入的序列級優(yōu)化目標
為查詢,
為用于采樣回復的策略,
為采樣得到的回復組,
為各個回復的組內(nèi)相對優(yōu)勢,
為需優(yōu)化的當前策略。
GSPO采用以下優(yōu)化目標:
即為GSPO基于序列似然定義的重要性比率,其中研究人員進行了長度歸一化以降低方差并統(tǒng)一
的數(shù)值范圍。
GSPO裁剪token比例超GRPO百倍
實驗中,研究人員選用了基于Qwen3-30B-A3B-Base微調(diào)得到的冷啟動模型,并在AIME’24、LiveCodeBench和CodeForces等多個權(quán)威基準任務上測試其性能。
值得注意的是,GRPO必須采用RoutingReplay訓練策略才能正常收斂,而GSPO則無需該策略
從上圖可見,GSPO表現(xiàn)出比GRPO更高的訓練效率,即在同等計算開銷下能夠取得更優(yōu)的性能。
特別地,他們還觀察到GSPO可以通過增加算力來獲得持續(xù)的性能提升——這正是他們所期待算法的可拓展性。
最終,他們成功地將GSPO應用于最新的Qwen3模型的大規(guī)模RL訓練,進一步釋放了RLscaling的潛能!
還有個有趣的觀察,GSPO所裁剪的token比例比GRPO要高上兩個數(shù)量級,但卻具有更高的訓練效率。
這進一步表明,GRPO所采用的token級優(yōu)化目標存在噪聲大、效率低的問題,而GSPO的序列級別的優(yōu)化目標則提供了更可靠、有效的學習信號。
在使用GRPO訓練時,MoE模型的專家激活波動性常導致RL訓練無法正常收斂。
為了解決這一挑戰(zhàn),研究者過去采用了路由回放(RoutingReplay)訓練策略
,即緩存
中激活的專家,并在計算重要性比率時在
中“回放”這些路由模式。
上圖可見,RoutingReplay對于GRPO訓練MoE模型的正常收斂至關重要。然而,這種做法會產(chǎn)生額外的內(nèi)存和通信開銷,并可能限制MoE模型的實際可用容量。
因此,GSPO的一大突出優(yōu)勢在于徹底消除了對RoutingReplay的依賴
。其核心在于:GSPO僅關注序列級別的似然(即
),而對個別token的似然(即
不敏感。
正因如此,GSPO無需RoutingReplay等對基礎設施負擔較大的手段,既簡化和穩(wěn)定了訓練過程,又使得模型能夠最大化地發(fā)揮容量與潛能。
此外,由于GSPO僅使用序列級別而非token級別的似然進行優(yōu)化,直觀上前者對精度差異的容忍度要高得多。
這使得GSPO可直接使用推理引擎返回的似然進行優(yōu)化,從而無需使用訓練引擎重新計算。該特性在partialrollout、多輪RL以及訓推分離框架等場景中特別有益。
論文鏈接:https://www.arxiv.org/abs/2507.18071
[1]https://mp.weixin.qq.com/s/Y5pfNNX4K6k0hfxXr87dkQ[2]https://x.com/Alibaba_Qwen/status/1949412072942612873[3]https://x.com/QGallouedec/status/1949454865442193779
國際標準情商測試,測測你的情商有多高!
EQ測試:哈佛情商小測試 聰明的人都在測?你不來嗎
世界500強職商測試題精選:共33題,EQ170分以上的人,實屬罕見...