劉子儒博士畢業(yè)于香港城市大學數(shù)據(jù)科學專業(yè),導師為趙翔宇教授及數(shù)學家周定軒教授。目前就職于華為香港研究所小藝團隊,負責RLVR算法與擴散語言模型方向的研究。龔成目前在香港城市大學攻讀博士學位,導師為張青富教授。期間在華為香港研究所小藝團隊進行研究實習,負責RLVR算法方向的研究。
新一代大型推理模型,如OpenAI-o3、DeepSeek-R1和Kimi-1.5,在復雜推理方面取得了顯著進展。該方向核心是一種名為ZERO-RL的訓練方法,即采用可驗證獎勵強化學習(RLVR)逐步提升大模型在強推理場景(math,coding)的pass@1能力。相較于依賴高質(zhì)量人工數(shù)據(jù)或從強大模型中提煉出的思維鏈的監(jiān)督微調(diào)(SFT),基于強化學習(RL)的后訓練在增強推理能力方面表現(xiàn)出更強的泛化性。
然而,目前以GroupRelativePolicyOptimization(GRPO)為代表的RLVR方法通常面臨兩個局限點:1.訓練數(shù)據(jù)難度與模型能力之間存在差距,導致獎勵稀疏從而阻礙了學習過程的穩(wěn)定性。2.單純基于On-policy強化學習算法的樣本效率低下,這對于端側小模型而言尤為突出。
為此,華為香港研究所小藝團隊、諾亞方舟實驗室與香港城市大學合作推出了GHPO算法框架,實現(xiàn)了在線強化學習與模仿學習的融合,并且能夠自適應地進行切換。
論文標題:GHPO:AdaptiveGuidanceforStableandEfficientLLMReinforcementLearning論文:https://arxiv.org/abs/2507.10628Github:https://github.com/hkgc-1/GHPO數(shù)據(jù):https://huggingface.co/datasets/hkgc/math3to5_olympiads_aime
GHPO不僅能大幅提升端側模型的樣本利用效率,同時針對性緩解了目前RLVR方法中的獎勵稀疏現(xiàn)象。通過難度感知與動態(tài)引導模塊設計,GHPO不僅提升了模型訓練過程中的穩(wěn)定性,并且在6個不同的開源數(shù)學推理Benchmark上實現(xiàn)提升,尤其在GPQA-Diamond和AMC23上分別提升9%和10%。該方法進一步被證明可以適用于不同難度分布的訓練數(shù)據(jù)集與多個模型類別。
具體方法
在RL中引入模仿學習
源自于對在線強化學習算法與基于模仿學習方法的思考,該團隊發(fā)現(xiàn)在傳統(tǒng)GRPO算法的訓練過程中,只有正確答案本身被用來提供監(jiān)督信號,而標準解題過程未被利用。因此,團隊提出了一個全新思路:通過將標準解題過程直接整合到強化學習循環(huán)中,來解決之前提到的獎勵稀疏問題,并進一步提出假設:模型訓練過程中通過標準解題過程的提示,從而獲得有效的學習信號。并且該方法能提升模型在推理任務上的泛化能力。
后續(xù)通過一系列的實驗證明該假設確實可行。
GHPO算法框架
然而,以上的離線方案需要預先將一組訓練數(shù)據(jù)集中的樣本進行難度劃分,并始終對其應用固定比例的提示。從而導致該方案無法實現(xiàn)全局最優(yōu)的效果與有效的拓展。因此,該團隊進一步提出了引導式混合策略優(yōu)化(GHPO),實現(xiàn)了動態(tài)樣本難度評估,并自適應地在強化學習和模仿學習之間切換。
如圖所示,GHPO由兩個核心模塊組成:
自動化難度檢測:該模塊評估當前問題的內(nèi)在難度,從而決定后續(xù)的學習過程。該模塊不需要提前標準或引入其他大模型作為輔助,僅需要基于每個樣本生成的解答的分布即可進行難度分類。該方案既能實現(xiàn)高效訓練且隨模型能力同步演進。自適應提示切換:根據(jù)檢測到的難度,該模塊通過整合不同級別的標準解題路徑來引導模型進行探索學習。團隊提出了一種具有多階段指導的自適應提示優(yōu)化策略,該策略動態(tài)調(diào)整提示比例ω。這種動態(tài)提示注入的核心思想是一個由學習階段控制的線性調(diào)度。訓練過程中會首先應用一小部分真實解作為初始提示,如果模型未能生成正確響應,提示的長度將在后續(xù)階段逐漸增加。
基于以上的創(chuàng)新方案,GHPO的目標函數(shù)可以表達為以下形式:
這種創(chuàng)新方法確保僅在模型真正需要時才提供對應指導,為模型當前能力范圍內(nèi)的任務保留了有價值的探索,同時為更具挑戰(zhàn)性的場景提供了自適應的優(yōu)化。
評測表現(xiàn)全面超越GRPO算法,代碼數(shù)據(jù)全面開源
GHPO的代碼實現(xiàn)基于Openr1項目,訓練框架的選擇為TRL,使用vLLM進行推理加速。團隊在TRL的代碼邏輯上直接實現(xiàn)了GHPOTrainer,后續(xù)有望在TRL后續(xù)版本上集成。
實驗設計上,基于Qwen2.5-7B-base模型進行了多種RLVR算法的實現(xiàn),包括GRPO、DeepScaleR的課程學習,以及固定比例提示作為基線,并基于開源數(shù)據(jù)準備了兩種不同難度設定的訓練集,驗證了GHPO算法在6個主流數(shù)學Benchmark上的表現(xiàn):
結果表明GHPO算法相較于GRPO可以實現(xiàn)平均4.5%的性能提升。
同時GHPO在訓練過程中有著更加穩(wěn)定的梯度更新。并且團隊進一步證明該算法可以應用到其他模型上,如Qwen2.5-Math-7B。
進一步提供了詳細的案例展示:
總結與展望:GHPO推動了強化學習與SFT之間的借鑒融合
自從DeepSeek-R1問世后,以GRPO為代表的強化學習算法一度成為大模型后訓練的熱點,相較于SFT,被認為能帶來更強的模型泛化能力。GHPO不僅以一種巧妙地方式緩解了RLVR訓練獎勵信號稀疏帶來的訓練不穩(wěn)定問題,同時實現(xiàn)了on-policy強化學習與模仿學習的自適應調(diào)整,為社區(qū)提供重新看待SFT與RL的視角以及提供兩者未來深度融合的可能性,助力人類進一步探索人工智能本質(zhì)。