CAFT團隊投稿量子位|公眾號QbitAI
告別Next-token,現(xiàn)在模型微調(diào)階段就能直接多token預(yù)測!
從GPT到Claude,當(dāng)前主流LLM都依賴next-tokenprediction(下一token預(yù)測)進行訓(xùn)練,但它卻讓AI很難真正理解跨越多token的完整概念。
于是南洋理工大學(xué)最近提出了一項新技術(shù)——概念感知微調(diào)(CAFT),首次實現(xiàn)將multi-tokenprediction(多token預(yù)測)引入微調(diào)階段,讓模型能夠像人類一樣理解和學(xué)習(xí)完整概念。
原來LLM只能碎片化理解每個token,現(xiàn)在CAFT可以為模型添加額外的輔助頭,在主模型學(xué)習(xí)下一個詞的同時,幫助學(xué)習(xí)后續(xù)token,并通過動態(tài)調(diào)整權(quán)重,確保模型始終優(yōu)先優(yōu)化主要任務(wù)的損失。
最終LLM可以兼顧多token概念學(xué)習(xí),形成更為完整的認知,在推理和生成能力增強的同時,既不會影響模型本身,也不會額外增加多余成本。
另外研究人員通過實驗發(fā)現(xiàn),CAFT在編程、數(shù)學(xué)、生物醫(yī)學(xué)等多個領(lǐng)域都能顯著提升模型性能,或許未來將會讓AI訓(xùn)練范式迎來根本性轉(zhuǎn)變。
下面是有關(guān)CAFT的更多詳細內(nèi)容。
Next-token預(yù)測:AI的“基因密碼”
首先,next-tokenprediction的基本思想是在已知上下文的基礎(chǔ)上,預(yù)測最有可能的下一個token。
舉個例子,針對句子“人工智能將改變_”,你可能會直接預(yù)測出“世界”、“未來”或“社會”,但是next-tokenprediction的預(yù)測流程則分為以下三步:
分詞:例如將“人工智能”拆分為“人工”和“智能”。序列建模:讓模型逐個學(xué)習(xí)每個token與其前文的關(guān)系。概率預(yù)測:為所有候選token分配概率,并選擇最高者作為輸出。
Next-token將會在預(yù)訓(xùn)練里的大規(guī)模語料上學(xué)習(xí)語言統(tǒng)計規(guī)律與通識知識,然后在微調(diào)中通過特定任務(wù)數(shù)據(jù)學(xué)習(xí)具體行為模式,決定模型實際表現(xiàn)。
但無論是預(yù)訓(xùn)練還是微調(diào),next-tokenprediction都只會在每一步中只預(yù)測下一個token,再依次進行。
與此同時,這也帶來了一個根本性缺陷,即它將完整概念拆解為碎片,阻礙模型形成整體認知。
例如“ribonucleicacid”(核糖核酸),Llama3分詞器就會將其拆解為:“rib”→“on”→“ucle”→“ic”→“acid”,當(dāng)模型預(yù)測“rib”時,無法預(yù)見“onucleicacid”,因此無法理解這是一個生物學(xué)分子概念。
又比如說將“北京大學(xué)”拆成“北”、“京”、“大”、“學(xué)”分開記憶,這嚴重破壞了語義完整性。
所以next-tokenprediction存在前瞻能力差、不擅長處理跨概念的復(fù)雜推理、學(xué)習(xí)效率低、結(jié)果高度依賴具體分詞器等問題。
Meta等機構(gòu)對此提出可以在預(yù)訓(xùn)練階段嘗試multi-tokenprediction,但同樣也面臨以下限制:
預(yù)訓(xùn)練成本過大,是微調(diào)階段的上千倍。僅能提升通用語言能力,對具體概念理解幫助有限。直接應(yīng)用于微調(diào)時會造成分布偏移,從而導(dǎo)致性能下降。
這讓multi-tokenprediction只適用于預(yù)訓(xùn)練階段,難以普及,所以研究團隊提出了新技術(shù)CAFT,將multi-tokenprediction引入微調(diào)。
CAFT:打破瓶頸的概念感知微調(diào)方法
CAFT在架構(gòu)上主要包括輔助頭、損失函數(shù)兩部分,輔助頭含獨立隱藏層,且共享輸出層,以降低參數(shù)成本,損失函數(shù)為:
其中L?指原始next-token損失,β是控制輔助損失的權(quán)重(設(shè)為0.01,確保主任務(wù)優(yōu)先),γ是反射正弦動態(tài)調(diào)整因子,訓(xùn)練初期高,后期低,α是幾何衰減因子,越遠的token權(quán)重越小,t指token位置。
在微調(diào)結(jié)束后,還可以直接丟棄輔助頭,讓推理開銷為零。
CAFT采取分階段訓(xùn)練策略,可分為兩個階段:
輔助頭預(yù)訓(xùn)練
在原模型上添加n-1個輔助預(yù)測頭,然后使用通用指令數(shù)據(jù)集訓(xùn)練輔助頭,分別預(yù)測第2、3、4…個未來token。
其中需要使用原模型自己生成的回答作為“偽標簽”,避免分布偏移,且輔助頭訓(xùn)練一次即可,多任務(wù)可通用復(fù)用。
概念感知微調(diào)
在特定任務(wù)上同時優(yōu)化原始預(yù)測頭和輔助頭,然后用特殊設(shè)計的損失函數(shù)確保主目標仍是第一個token。
利用動態(tài)權(quán)重調(diào)整策略,訓(xùn)練初期關(guān)注多token概念學(xué)習(xí),后期聚焦任務(wù)表現(xiàn)。
最終CAFT可實現(xiàn)極低的使用門檻,只需要幾行代碼,就能結(jié)合任意預(yù)訓(xùn)練模型,在成本上遠低于重新預(yù)訓(xùn)練,只略高于傳統(tǒng)微調(diào)。
CAFT的全面驗證:從代碼到生命科學(xué)
研究團隊在五個不同領(lǐng)域任務(wù)上測試了CAFT,將其與傳統(tǒng)的next-token微調(diào)(包括全量微調(diào)與LoRA微調(diào))進行對比。
所有結(jié)果均為5次獨立評估的平均值及95%置信區(qū)間,部分任務(wù)在微調(diào)前會對輔助頭進行1個epoch的預(yù)訓(xùn)練。
在編程任務(wù)中,由于存在大量跨token的語義單元,例如Python中的“_name_”會被分為“_”、“name”、“_”三個token,但需整體理解,所以借助HumanEval數(shù)據(jù)集,判斷CAFT能否讓模型能夠整體理解這類編程概念。
實驗結(jié)果表明,LoRACAFT在準確率上從40.9%提升至45.1%,F(xiàn)ullCAFT則從40.5%提升到49.3%。
然后將題目按概念密度分類,發(fā)現(xiàn)CAFT在高概念密集題目上提升更顯著(+11.67%vs+7.59%),證實了概念學(xué)習(xí)的有效性。
在數(shù)學(xué)推理上,LoRACAFT在MATH-500數(shù)據(jù)集里性能提升了1.7%(22.9%到24.6%),F(xiàn)ullCAFT則是1.5%(23.7%到25.2%)。
而當(dāng)CAFT置于臨床文本中,由于醫(yī)學(xué)文本充滿復(fù)雜專業(yè)術(shù)語,被拆分后往往失去意義,此時讓CAFT完成醫(yī)學(xué)術(shù)語整體理解極具挑戰(zhàn)性。
但CAFT仍然在MIMIC-IV-BHC數(shù)據(jù)集上表現(xiàn)良好,在ROUGE等指標上全面優(yōu)于傳統(tǒng)方法,其中ROUGE-1從44.57提高到45.93,ROUGE-2從22.94提高到24.44,ROUGE-L從32.17提高到33.76,說明其能更好地捕捉長文本中的概念。
在官能團結(jié)構(gòu)理解上,由于化學(xué)分子包含功能性“官能團”,如苯環(huán)、酰胺基團等,而SMILES序列中的官能團是典型的多token概念,傳統(tǒng)方法很難整體學(xué)習(xí)。
CAFT可以很好地彌補這一點,準確匹配率從原來的0.14%,提升了4倍,到0.54%,有效分子比例從92.38%改進到97.14%,結(jié)構(gòu)相似性也得到了顯著改善。
進一步進行官能團學(xué)習(xí)驗證,發(fā)現(xiàn)苯環(huán)識別中F1分數(shù)大幅提升、酰胺識別中準確率和召回率雙重改善、羧酸識別中復(fù)雜分子的識別能力增強。
另外為考驗CAFT泛化能力,讓CAFT根據(jù)功能設(shè)計蛋白質(zhì)序列,由于蛋白質(zhì)使用氨基酸編碼,與自然語言差異極大,測試環(huán)境相當(dāng)極限。
實驗結(jié)果顯示,序列同一性從20.32%提升到22.14%,序列對比分數(shù)也從原來的負值(-16.01)提升到正值(3.18),結(jié)構(gòu)置信度從52.60變?yōu)?4.30,結(jié)構(gòu)相似性從33.07%變?yōu)?5.12%。
其中,25.0%的生成序列具有高結(jié)構(gòu)置信度(>70),比傳統(tǒng)方法的20.0%有了顯著提升。
最終,研究團隊通過在廣泛領(lǐng)域中實驗,驗證了CAFT實現(xiàn)multi-tokenprediction在微調(diào)階段的可行性,其易用性和低成本也展示了其可能替代現(xiàn)有next-tokenprediction的巨大潛力,為理解模型內(nèi)部機制提供了新視角。
論文鏈接:https://www.arxiv.org/abs/2506.07833項目鏈接:https://github.com/michaelchen-lab/caft-llm
先去你家,我當(dāng)機立斷,我們不再和消防門糾纏
因為出現(xiàn)在他的領(lǐng)地本身就會被視作為一種威脅。更何況,殺掉其他幸存人類還有著諸多好處——搶占更多的生存資源和避難所,獲得更大更安全的活動范圍等等。所以在末世初期,大量的幸存者其實是死在人類自己手中,成為沒有意義的犧牲品————。不過在陳林看來,清道夫只是一種應(yīng)激式的產(chǎn)物,并不會成為人類命運的最終歸宿-。我希望他說的是對的-。因為我突然意 漫畫:《竹鼠的生存法則》,不胖不瘦不打架不憂郁你還要我怎樣?大家好,我是一只新來的竹鼠,帶我來的是一個20多歲的小帥哥,一頭短發(fā),笑容也很陽光,就是看我的時候眼神有點奇怪-——。聽說這里的生存法則很殘酷,比如我眼前的這位兄弟因為不怎么活動就被認為是憂郁癥吃掉了|。所以我經(jīng)常和周圍的同伴聊天八卦,來有幫助請點贊|。小說:末日降臨倆月,宅女竟樂享薯片追劇,反轉(zhuǎn)逆襲?