Archer團隊投稿量子位|公眾號QbitAI
當大模型在數(shù)學題和代碼任務里“卷”參數(shù)規(guī)模時,一支來自快手和清華的團隊給出了不同答案——
他們用1.5B參數(shù)的小模型,在多個推理基準上干過了同量級SOTA。
秘密在于給模型的“學習過程”做了精細化管理:讓該記牢的知識穩(wěn)住,讓該靈活的推理放開。
在多個挑戰(zhàn)性的數(shù)學、代碼評測基準上,該團隊提出的Archer方法都展現(xiàn)出了強大的實力。
目前,Archer的代碼已開源,詳細鏈接可見文末。
“兩難”:知識和推理難兼顧
通過預訓練,LLM能記住海量的知識。但要讓這些知識轉(zhuǎn)化為解決數(shù)學題、寫復雜代碼的推理能力,還得靠后續(xù)的強化學習(RL)優(yōu)化。
其中,帶可驗證獎勵的強化學習(RLVR)是當前的主流方法——簡單地說,就是讓模型不斷嘗試解題,通過“是否做對”的反饋調(diào)整行為,有點像人類“做題糾錯”。
但問題來了:模型輸出的內(nèi)容里,有些是“知識型”的(比如“1+1=2”這類事實),有些是“推理型”的(比如“先算括號里,再算乘除”這類邏輯規(guī)劃步驟)。
過去的RLVR方法要么“一視同仁”,給所有內(nèi)容用一樣的訓練信號;要么“粗暴分割”,用梯度屏蔽把兩類內(nèi)容拆開訓練。
結(jié)果往往是:要么知識逐漸變差(比如把公式記錯),要么推理放不開(比如總用老套思路解題)。
快手和清華團隊發(fā)現(xiàn):這兩類內(nèi)容在模型里其實有明顯特征:
低熵Token(確定性高):比如“3.14”、“def函數(shù)”,對應事實性知識,訓練時不能亂改;高熵Token(不確定性高):比如“因此”、“接下來”、“循環(huán)條件”,對應邏輯推理,需要多嘗試。
但關(guān)鍵在于,這兩類Token在句子里是“綁在一起”的——比如解數(shù)學題時,“因為2+3=5(低熵),所以下一步算5×4(高熵)”,拆開會破壞語義邏輯。
Archer:給Token“差異化訓練”
團隊提出的Archer方法,核心是“雙Token約束”——不拆分Token,而是給它們定制不同的訓練規(guī)則。
簡單說就是兩步:
1.先給Token“貼標簽”:用熵值分類型
通過計算每個Token的熵值(不確定性),自動區(qū)分“知識型”和“推理型”:
高熵Token:比如數(shù)學推理里的“接下來”、“綜上”,代碼里的“循環(huán)”、“判斷”,是邏輯轉(zhuǎn)折點;低熵Token:比如“123”、“print”,是必須準確的事實性內(nèi)容。
團隊用“句子級熵統(tǒng)計”替代傳統(tǒng)的“批次級統(tǒng)計”——比如同一道數(shù)學題,不同解法的Token熵分布不同,按句子單獨劃分,避免把“關(guān)鍵推理Token”誤判成“知識Token”。
2.再給訓練“定規(guī)矩”:差異化約束
對貼好標簽的Token,用不同的規(guī)則訓練:
推理型(高熵)Token:松約束。用更高的裁剪閾值(允許更大幅度調(diào)整)和更弱的KL正則(減少對原始策略的依賴),鼓勵模型多嘗試不同推理路徑;知識型(低熵)Token:緊約束。用更低的裁剪閾值和更強的KL正則,讓模型“死死記住”正確知識,避免越訓越錯。
這樣一來,知識和推理既能同步更新,又不互相干擾——就像老師教學生:基礎(chǔ)公式要背牢,解題思路可以大膽試。
從數(shù)學到代碼:全面碾壓同量級模型
在最考驗推理能力的數(shù)學和代碼任務上,Archer的表現(xiàn)都很出色。
數(shù)學推理:解題正確率大幅提升
在AIME2024/2025、Minerva等硬核數(shù)學基準上:
相比同基座的原始模型,Archer在AIME24上正確率提升18.1%,AIME25提升10.3%;對比當前SOTA方法DAPO,Archer在AIME24上多對6.6%的題,AIME25多對5.2%;1.5B參數(shù)的Archer-Math,直接超過了FastCuRL、Nemotron等同量級SOTA模型,平均正確率登頂
代碼生成:刷題能力顯著增強
在LiveCodeBench(主流代碼生成基準)v5/v6上:
相比DAPO,Archer在v5上正確率提升3.4%,v6提升2.6%;超過了專門優(yōu)化代碼的DeepCoder-1.5B,成為同量級最佳代碼生成模型之一。
效率方面,Archer只用單階段訓練、1900H800GPU小時(對比Nemotron的16000H100小時),就實現(xiàn)了這些提升。
沒有復雜的多輪訓練,達到了“花小錢辦大事”的效果。
關(guān)鍵在“平衡”
Archer的核心洞察是:LLM推理能力不是“死記硬背”或“盲目試錯”,而是知識穩(wěn)定性和推理探索性的平衡。
團隊通過實驗驗證了這種平衡的重要性:
若不給低熵Token加約束(KL=0),模型會很快“記混知識”,輸出重復內(nèi)容,性能崩塌;若給高熵Token加嚴約束(裁剪閾值太?。?,模型推理“放不開”,學不到新方法;只有讓知識Token“”、推理Token“”,才能既不丟基礎(chǔ),又能提升邏輯能力。
這種思路也解釋了為什么小模型能逆襲——大模型的參數(shù)優(yōu)勢能堆出更多知識,但如果訓練時“管不好”知識和推理的關(guān)系,能力提升反而受限。
Archer用精細化的Token管理,讓小模型的每一個參數(shù)都用在刀刃上,學會如何更好的組織使用已有的知識。
論文鏈接:http://arxiv.org/abs/2507.15778GitHub:https://github.com/wizard-III/ArcherCodeR
小說:三世重生虐渣秒敵,卻陷他溫柔陷阱,笑對挑戰(zhàn)
《帝尊追妻:獨寵腹黑鬼醫(yī)》作者:夜玖璐第1章重生“不……不……不要!阿言,你不要離開我……”玥綺痛苦的閉上雙眼,腦海中全是夜謹言為自己擋槍而亡的慘狀,他的鮮血噴到她的臉上,他倒在自己的面前,用著最后的力氣抬起手捂住了她的雙眼。他說:“玥兒……別看……玥兒……活下去——-?!弊詈?,他還是離她而去 忽然,玥綺拿著槍對著自己開了一槍,鮮血滴在了龍骨戒上……黑袍男子一生都在研究龍骨戒的秘密,自從他知道玥綺能喚醒龍骨戒,便一心栽培玥綺,就是希望能知道龍骨戒的秘密。“你們……都給阿言陪葬吧?!鲍h綺冷冷的說完,閉上了雙眼,伴隨著一聲巨大的轟鳴,玥綺召喚龍骨戒自爆了。方圓百里絕無生還——?!?.《美人謀:江山女帝》:自己打的江山卻讓他人上了位,真是可笑!