劉子儒博士畢業(yè)于香港城市大學(xué)數(shù)據(jù)科學(xué)專業(yè),導(dǎo)師為趙翔宇教授及數(shù)學(xué)家周定軒教授。目前就職于華為香港研究所小藝團(tuán)隊(duì),負(fù)責(zé)RLVR算法與擴(kuò)散語言模型方向的研究。龔成目前在香港城市大學(xué)攻讀博士學(xué)位,導(dǎo)師為張青富教授。期間在華為香港研究所小藝團(tuán)隊(duì)進(jìn)行研究實(shí)習(xí),負(fù)責(zé)RLVR算法方向的研究。
新一代大型推理模型,如OpenAI-o3、DeepSeek-R1和Kimi-1.5,在復(fù)雜推理方面取得了顯著進(jìn)展。該方向核心是一種名為ZERO-RL的訓(xùn)練方法,即采用可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)逐步提升大模型在強(qiáng)推理場景(math,coding)的pass@1能力。相較于依賴高質(zhì)量人工數(shù)據(jù)或從強(qiáng)大模型中提煉出的思維鏈的監(jiān)督微調(diào)(SFT),基于強(qiáng)化學(xué)習(xí)(RL)的后訓(xùn)練在增強(qiáng)推理能力方面表現(xiàn)出更強(qiáng)的泛化性。
然而,目前以GroupRelativePolicyOptimization(GRPO)為代表的RLVR方法通常面臨兩個(gè)局限點(diǎn):1.訓(xùn)練數(shù)據(jù)難度與模型能力之間存在差距,導(dǎo)致獎(jiǎng)勵(lì)稀疏從而阻礙了學(xué)習(xí)過程的穩(wěn)定性。2.單純基于On-policy強(qiáng)化學(xué)習(xí)算法的樣本效率低下,這對于端側(cè)小模型而言尤為突出。
為此,華為香港研究所小藝團(tuán)隊(duì)、諾亞方舟實(shí)驗(yàn)室與香港城市大學(xué)合作推出了GHPO算法框架,實(shí)現(xiàn)了在線強(qiáng)化學(xué)習(xí)與模仿學(xué)習(xí)的融合,并且能夠自適應(yīng)地進(jìn)行切換。
論文標(biāo)題:GHPO:AdaptiveGuidanceforStableandEfficientLLMReinforcementLearning論文:https://arxiv.org/abs/2507.10628Github:https://github.com/hkgc-1/GHPO數(shù)據(jù):https://huggingface.co/datasets/hkgc/math3to5_olympiads_aime
GHPO不僅能大幅提升端側(cè)模型的樣本利用效率,同時(shí)針對性緩解了目前RLVR方法中的獎(jiǎng)勵(lì)稀疏現(xiàn)象。通過難度感知與動態(tài)引導(dǎo)模塊設(shè)計(jì),GHPO不僅提升了模型訓(xùn)練過程中的穩(wěn)定性,并且在6個(gè)不同的開源數(shù)學(xué)推理Benchmark上實(shí)現(xiàn)提升,尤其在GPQA-Diamond和AMC23上分別提升9%和10%。該方法進(jìn)一步被證明可以適用于不同難度分布的訓(xùn)練數(shù)據(jù)集與多個(gè)模型類別。
具體方法
在RL中引入模仿學(xué)習(xí)
源自于對在線強(qiáng)化學(xué)習(xí)算法與基于模仿學(xué)習(xí)方法的思考,該團(tuán)隊(duì)發(fā)現(xiàn)在傳統(tǒng)GRPO算法的訓(xùn)練過程中,只有正確答案本身被用來提供監(jiān)督信號,而標(biāo)準(zhǔn)解題過程未被利用。因此,團(tuán)隊(duì)提出了一個(gè)全新思路:通過將標(biāo)準(zhǔn)解題過程直接整合到強(qiáng)化學(xué)習(xí)循環(huán)中,來解決之前提到的獎(jiǎng)勵(lì)稀疏問題,并進(jìn)一步提出假設(shè):模型訓(xùn)練過程中通過標(biāo)準(zhǔn)解題過程的提示,從而獲得有效的學(xué)習(xí)信號。并且該方法能提升模型在推理任務(wù)上的泛化能力。
后續(xù)通過一系列的實(shí)驗(yàn)證明該假設(shè)確實(shí)可行。
GHPO算法框架
然而,以上的離線方案需要預(yù)先將一組訓(xùn)練數(shù)據(jù)集中的樣本進(jìn)行難度劃分,并始終對其應(yīng)用固定比例的提示。從而導(dǎo)致該方案無法實(shí)現(xiàn)全局最優(yōu)的效果與有效的拓展。因此,該團(tuán)隊(duì)進(jìn)一步提出了引導(dǎo)式混合策略優(yōu)化(GHPO),實(shí)現(xiàn)了動態(tài)樣本難度評估,并自適應(yīng)地在強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)之間切換。
如圖所示,GHPO由兩個(gè)核心模塊組成:
自動化難度檢測:該模塊評估當(dāng)前問題的內(nèi)在難度,從而決定后續(xù)的學(xué)習(xí)過程。該模塊不需要提前標(biāo)準(zhǔn)或引入其他大模型作為輔助,僅需要基于每個(gè)樣本生成的解答的分布即可進(jìn)行難度分類。該方案既能實(shí)現(xiàn)高效訓(xùn)練且隨模型能力同步演進(jìn)。自適應(yīng)提示切換:根據(jù)檢測到的難度,該模塊通過整合不同級別的標(biāo)準(zhǔn)解題路徑來引導(dǎo)模型進(jìn)行探索學(xué)習(xí)。團(tuán)隊(duì)提出了一種具有多階段指導(dǎo)的自適應(yīng)提示優(yōu)化策略,該策略動態(tài)調(diào)整提示比例ω。這種動態(tài)提示注入的核心思想是一個(gè)由學(xué)習(xí)階段控制的線性調(diào)度。訓(xùn)練過程中會首先應(yīng)用一小部分真實(shí)解作為初始提示,如果模型未能生成正確響應(yīng),提示的長度將在后續(xù)階段逐漸增加。
基于以上的創(chuàng)新方案,GHPO的目標(biāo)函數(shù)可以表達(dá)為以下形式:
這種創(chuàng)新方法確保僅在模型真正需要時(shí)才提供對應(yīng)指導(dǎo),為模型當(dāng)前能力范圍內(nèi)的任務(wù)保留了有價(jià)值的探索,同時(shí)為更具挑戰(zhàn)性的場景提供了自適應(yīng)的優(yōu)化。
評測表現(xiàn)全面超越GRPO算法,代碼數(shù)據(jù)全面開源
GHPO的代碼實(shí)現(xiàn)基于Openr1項(xiàng)目,訓(xùn)練框架的選擇為TRL,使用vLLM進(jìn)行推理加速。團(tuán)隊(duì)在TRL的代碼邏輯上直接實(shí)現(xiàn)了GHPOTrainer,后續(xù)有望在TRL后續(xù)版本上集成。
實(shí)驗(yàn)設(shè)計(jì)上,基于Qwen2.5-7B-base模型進(jìn)行了多種RLVR算法的實(shí)現(xiàn),包括GRPO、DeepScaleR的課程學(xué)習(xí),以及固定比例提示作為基線,并基于開源數(shù)據(jù)準(zhǔn)備了兩種不同難度設(shè)定的訓(xùn)練集,驗(yàn)證了GHPO算法在6個(gè)主流數(shù)學(xué)Benchmark上的表現(xiàn):
結(jié)果表明GHPO算法相較于GRPO可以實(shí)現(xiàn)平均4.5%的性能提升。
同時(shí)GHPO在訓(xùn)練過程中有著更加穩(wěn)定的梯度更新。并且團(tuán)隊(duì)進(jìn)一步證明該算法可以應(yīng)用到其他模型上,如Qwen2.5-Math-7B。
進(jìn)一步提供了詳細(xì)的案例展示:
總結(jié)與展望:GHPO推動了強(qiáng)化學(xué)習(xí)與SFT之間的借鑒融合
自從DeepSeek-R1問世后,以GRPO為代表的強(qiáng)化學(xué)習(xí)算法一度成為大模型后訓(xùn)練的熱點(diǎn),相較于SFT,被認(rèn)為能帶來更強(qiáng)的模型泛化能力。GHPO不僅以一種巧妙地方式緩解了RLVR訓(xùn)練獎(jiǎng)勵(lì)信號稀疏帶來的訓(xùn)練不穩(wěn)定問題,同時(shí)實(shí)現(xiàn)了on-policy強(qiáng)化學(xué)習(xí)與模仿學(xué)習(xí)的自適應(yīng)調(diào)整,為社區(qū)提供重新看待SFT與RL的視角以及提供兩者未來深度融合的可能性,助力人類進(jìn)一步探索人工智能本質(zhì)。
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。