為什么《英雄聯(lián)盟》潮汐海靈即便在 S15 賽季的全局 BP 下也無(wú)法登上賽場(chǎng)?
時(shí)令發(fā)自凹非寺量子位|公眾號(hào)QbitAI
通義千問(wèn)一周開(kāi)源三連暴擊,背后殺手锏官方來(lái)揭秘了:
強(qiáng)化學(xué)習(xí)新算法GSPO
同等算力下,訓(xùn)練效率碾壓GRPO,準(zhǔn)確率和性能飆升。
背后的核心創(chuàng)新在于:GSPO定義了序列級(jí)別的重要性比率,并在序列層面執(zhí)行裁剪、獎(jiǎng)勵(lì)和優(yōu)化。
此算法一出,便迅速引發(fā)了人們對(duì)其在其他模型中應(yīng)用效果的期待。
序列級(jí)優(yōu)化目標(biāo)
相較于GRPO,GSPO有三大突出優(yōu)勢(shì):
強(qiáng)大高效:GSPO具備顯著更高的訓(xùn)練效率,并且能夠通過(guò)增加計(jì)算獲得持續(xù)的性能提升;
穩(wěn)定性出色:GSPO能夠保持穩(wěn)定的訓(xùn)練過(guò)程,并且根本地解決了混合專家(Mixture-of-Experts,MoE)模型的RL訓(xùn)練穩(wěn)定性問(wèn)題;
基礎(chǔ)設(shè)施友好:由于在序列層面執(zhí)行優(yōu)化,GSPO原則上對(duì)精度容忍度更高,具有簡(jiǎn)化RL基礎(chǔ)設(shè)施的誘人前景。
而這一切優(yōu)勢(shì)的背后,正是GSPO在設(shè)計(jì)上所引入的序列級(jí)優(yōu)化目標(biāo)
為查詢,
為用于采樣回復(fù)的策略,
為采樣得到的回復(fù)組,
為各個(gè)回復(fù)的組內(nèi)相對(duì)優(yōu)勢(shì),
為需優(yōu)化的當(dāng)前策略。
GSPO采用以下優(yōu)化目標(biāo):
即為GSPO基于序列似然定義的重要性比率,其中研究人員進(jìn)行了長(zhǎng)度歸一化以降低方差并統(tǒng)一
的數(shù)值范圍。
GSPO裁剪token比例超GRPO百倍
實(shí)驗(yàn)中,研究人員選用了基于Qwen3-30B-A3B-Base微調(diào)得到的冷啟動(dòng)模型,并在AIME’24、LiveCodeBench和CodeForces等多個(gè)權(quán)威基準(zhǔn)任務(wù)上測(cè)試其性能。
值得注意的是,GRPO必須采用RoutingReplay訓(xùn)練策略才能正常收斂,而GSPO則無(wú)需該策略
從上圖可見(jiàn),GSPO表現(xiàn)出比GRPO更高的訓(xùn)練效率,即在同等計(jì)算開(kāi)銷下能夠取得更優(yōu)的性能。
特別地,他們還觀察到GSPO可以通過(guò)增加算力來(lái)獲得持續(xù)的性能提升——這正是他們所期待算法的可拓展性。
最終,他們成功地將GSPO應(yīng)用于最新的Qwen3模型的大規(guī)模RL訓(xùn)練,進(jìn)一步釋放了RLscaling的潛能!
還有個(gè)有趣的觀察,GSPO所裁剪的token比例比GRPO要高上兩個(gè)數(shù)量級(jí),但卻具有更高的訓(xùn)練效率。
這進(jìn)一步表明,GRPO所采用的token級(jí)優(yōu)化目標(biāo)存在噪聲大、效率低的問(wèn)題,而GSPO的序列級(jí)別的優(yōu)化目標(biāo)則提供了更可靠、有效的學(xué)習(xí)信號(hào)。
在使用GRPO訓(xùn)練時(shí),MoE模型的專家激活波動(dòng)性常導(dǎo)致RL訓(xùn)練無(wú)法正常收斂。
為了解決這一挑戰(zhàn),研究者過(guò)去采用了路由回放(RoutingReplay)訓(xùn)練策略
,即緩存
中激活的專家,并在計(jì)算重要性比率時(shí)在
中“回放”這些路由模式。
上圖可見(jiàn),RoutingReplay對(duì)于GRPO訓(xùn)練MoE模型的正常收斂至關(guān)重要。然而,這種做法會(huì)產(chǎn)生額外的內(nèi)存和通信開(kāi)銷,并可能限制MoE模型的實(shí)際可用容量。
因此,GSPO的一大突出優(yōu)勢(shì)在于徹底消除了對(duì)RoutingReplay的依賴
。其核心在于:GSPO僅關(guān)注序列級(jí)別的似然(即
),而對(duì)個(gè)別token的似然(即
不敏感。
正因如此,GSPO無(wú)需RoutingReplay等對(duì)基礎(chǔ)設(shè)施負(fù)擔(dān)較大的手段,既簡(jiǎn)化和穩(wěn)定了訓(xùn)練過(guò)程,又使得模型能夠最大化地發(fā)揮容量與潛能。
此外,由于GSPO僅使用序列級(jí)別而非token級(jí)別的似然進(jìn)行優(yōu)化,直觀上前者對(duì)精度差異的容忍度要高得多。
這使得GSPO可直接使用推理引擎返回的似然進(jìn)行優(yōu)化,從而無(wú)需使用訓(xùn)練引擎重新計(jì)算。該特性在partialrollout、多輪RL以及訓(xùn)推分離框架等場(chǎng)景中特別有益。
論文鏈接:https://www.arxiv.org/abs/2507.18071
[1]https://mp.weixin.qq.com/s/Y5pfNNX4K6k0hfxXr87dkQ[2]https://x.com/Alibaba_Qwen/status/1949412072942612873[3]https://x.com/QGallouedec/status/1949454865442193779
寶藏古代言情小說(shuō)推薦:《王妃她天天都想休了王爺》,劇情嚴(yán)謹(jǐn)
眾人點(diǎn)贊《王爺,王妃又要休夫了》為何能真是甜到打滾
小說(shuō):穿成王妃,她開(kāi)局就休了王爺,姐妹們被這操作驚呆了!