白英琴
機器之心報道
機器之心編輯部
近年來,語言模型的顯著進展主要得益于大規(guī)模文本數(shù)據(jù)的可獲得性以及自回歸訓練方法的有效性。
在這種自回歸的訓練框架中,每一個token都作為其前文上下文的預(yù)測目標。
這一方法無需顯式標注,使得自回歸模型在訓練階段具有明顯優(yōu)勢,因而成為主流范式。
然而,在推理階段,自回歸生成本質(zhì)上是順序執(zhí)行的,計算開銷大,因為每一步解碼都需要完整地運行一次模型。相比之下,人類在表達時常常會先在句子層面組織思路,再逐詞輸出。
那么在大模型推理階段,能否讓大模型擺脫單個token順序預(yù)測的瓶頸,也和人類的邏輯一樣,從更大層面考慮輸出內(nèi)容呢?
假如能夠打破自回歸模型的順序執(zhí)行本質(zhì),就產(chǎn)生了如網(wǎng)友所說的「具有時間跳躍能力的LLM」
受到啟發(fā),蘋果的研究人員為此展開思考,借助類似策略,開發(fā)了一個框架,使預(yù)訓練的自回歸大型語言模型能夠執(zhí)行多token預(yù)測,在保持生成質(zhì)量的同時,為代碼和數(shù)學任務(wù)提供高達5.35倍的推理加速,以及為一般任務(wù)提供約2.5倍的推理加速
AI工程師JacksonAtkins認為這是一項具有開創(chuàng)性的工作,「最令人興奮的是這一切都可以通過對現(xiàn)有模型進行LoRA微調(diào)實現(xiàn)」。
想象一下,將AI運行成本削減數(shù)倍,或是在輕量設(shè)備上流暢運行強大的實時助手,這對推理優(yōu)化而言是一次顛覆性的變革。
如果你手中有一個運行速度提升5倍的大語言模型,第一件事會做什么?
論文標題:YourLLMKnowstheFuture:UncoveringItsMulti-TokenPredictionPotential論文鏈接:https://www.alphaxiv.org/abs/2507.11851
首先探討一個基本問題:語言模型能否在單個推理步驟中生成多個token?
令人鼓舞的是,答案是肯定的。
現(xiàn)有的推測解碼研究已經(jīng)探索了這個方向以加快生成速度。推測解碼方法利用一個草稿模型生成多個token,然后通過一個驗證器檢查它們與標準自回歸輸出的一致性。雖然這種方法提供了加速,但它仍然根本上依賴于自回歸生成。
在這項工作中,研究者們提出了一個更深層次的問題:我們能否訓練真正非自回歸的語言模型?
研究者們通過設(shè)計完全非自回歸的訓練算法來探討這一問題,例如基于擴散機制的語言模型。然而,此類方法通常需要構(gòu)建全新的建模與訓練流程。
于是研究者們進一步提出一個問題:是否可以在盡可能少改動的前提下,適配現(xiàn)有的自回歸訓練與推理框架?目標是實現(xiàn)在保留自回歸模型核心優(yōu)勢的同時,實現(xiàn)高效的多token生成。
為進一步論證這一點,研究者們首先觀察到,自回歸模型雖然并未明確針對未來token進行訓練,但實際上已經(jīng)在一定程度上編碼了關(guān)于未來token的信息。
例如,給定提示詞“whatistwoplustwo?”,一個預(yù)訓練模型在標準自回歸解碼過程中通常會生成“twoplustwoequalsfour”。為了檢驗?zāi)P褪欠窬邆鋵ξ磥韙oken的感知能力,研究者們在提示后添加占位token(圖中以?表示),并分析輸出的logits,如圖1(左)所示。
令人驚訝的是,未來token的正確序列出現(xiàn)在前200個logits中,說明模型在某種程度上已隱含地掌握了即將生成的token信息
圖1:自回歸模型能夠隱式預(yù)判未來的token。
基于上述觀察,研究者們進一步探究能否引導(dǎo)模型發(fā)揮其潛在能力,從而更好地組織對未來token的預(yù)測。
為此,研究者在提示詞末尾引入若干masktoken,并對模型進行訓練,使其能夠直接預(yù)測這些token。如圖1(中)所示,經(jīng)過微調(diào)后的模型能夠?qū)⒄_的token提升至前10個logits中。
最后,為生成連貫的多token輸出,研究者們引入了一個輕量級的采樣模塊:一個兩層感知機(two-layerperceptron),該模塊在預(yù)測每個token時,結(jié)合先前已采樣出的token作為條件,具體結(jié)構(gòu)如圖1(右)所示。
與之前的一些方法不同,本文訓練模型填充masktoken,以預(yù)測未來token。該模型在推理這些token時,充分利用了自身的全部深度與表示能力,并結(jié)合整個序列的上下文信息,從而在效果上顯著優(yōu)于現(xiàn)有的多token預(yù)測方法。
此外,得益于一種簡單而有效的技術(shù)——門控LoRA適配(gatedLoRAadaptation),本方法在生成質(zhì)量上無任何下降
在較為輕量的監(jiān)督微調(diào)下,研究者們相較于傳統(tǒng)回溯式生成模型實現(xiàn)了加速效果。如圖2所示,在Tulu3-8B模型基礎(chǔ)上微調(diào)以預(yù)測8個額外token,即可獲得顯著性能提升。
圖2:在通過監(jiān)督微調(diào)訓練門控LoRA和采樣頭后獲得的加速效果。
方法
為在盡量減少重新訓練的前提下實現(xiàn)多token生成,引入了一類特殊的token,稱為mask。設(shè)原始序列為X=[x1,…,xn],基本思路是在該序列末尾附加k個唯一的masktoken,從而構(gòu)造出擴展序列Xm=[x1,…,xn,m1,…,mk]。其中,masktoken[m1,…,mk]的表示向量被初始化為隨機向量,并添加至模型的嵌入表中。
在本文中,將模型對標準下一個token的預(yù)測稱為NTP(NextTokenPrediction),而對masktoken的預(yù)測稱為MTP(MaskTokenPrediction)。
本文所提出的MTP模型的整體架構(gòu)如圖3所示,其中展示了在微調(diào)時使用k=2個mask的模型在推理階段的工作流程。在圖中box-1(左上角),擴展后的序列Xm被輸入至解碼器,模型生成的潛在表示中,[z1,…,zn]對應(yīng)于NTPtoken的表示,而[zn+1,…,zn+k]則對應(yīng)于MTPtoken的表示。
圖3:MTP模型的組成部分???(左上)顯示了帶有門控LoRA參數(shù)的自回歸模型???(左下)說明了采樣頭???(右)展示了門控LoRA模塊的框圖。
圖中框2(左下)展示了采樣器頭(samplerhead)的結(jié)構(gòu)。第一個(NTP)token通過標準的反嵌入層(unembeddinglayer)以自回歸方式生成,即由z_n預(yù)測出y_n+1。而剩余的(MTP)token則由采樣器模塊依次生成。在每一步中,采樣器根據(jù)z_n+k+1與前一個已生成的tokeny_n+k來預(yù)測y_n+1+k,確保每個生成的token同時融合模型的潛在表示與先前已采樣的token信息。
為了在微調(diào)時保留預(yù)訓練模型的行為,研究者們在解碼器層中引入了門控LoRA模塊(gatedLoRA)。微調(diào)過程中,僅更新LoRA參數(shù)與采樣器頭參數(shù),原始解碼器權(quán)重保持凍結(jié)狀態(tài)。門控LoRA模塊通過對NTP與MTPtoken分別采取不同的計算路徑,確保微調(diào)過程不會影響NTPtoken的生成行為,如圖中框3(右側(cè))所示。該差異通過引入二進制mask實現(xiàn),二進制mask被作為額外輸入傳入解碼器層。
詳細的模型訓練過程請參閱原論文。
實驗
研究者們在Tulu3-8BSFT模型上開展了實驗。該模型屬于LLaMA-3系列,并基于Tulu3數(shù)據(jù)集進行了有監(jiān)督微調(diào)。
生成質(zhì)量評估
研究者們首先在微調(diào)過程中跟蹤了模型的準確率變化。由于所用模型為SFT模型,其對額外訓練非常敏感。圖6(a)展示了模型在ARC-Challenge基準上的zero-shot準確率,該評估通過Harness庫完成。
如圖6(a)中的虛線所示,gatedLoRA能夠保持準確率穩(wěn)定,原因在于其保證了NTPtoken的輸出不會受到微調(diào)影響。
如圖6(b)中所示,在標準LoRA與gatedLoRA兩種訓練方式都實現(xiàn)了有效的收斂。
接下來,研究者們在圖6(c)中分析了NTPtoken上的交叉熵損失,該指標與生成質(zhì)量直接相關(guān)。如圖所示,使用標準LoRA訓練的模型,其NTP損失呈上升趨勢,表明生成質(zhì)量逐漸下降。相比之下,采用gatedLoRA的模型在整個訓練過程中保持了幾乎恒定的NTP損失,這是因為在gatedLoRA機制下,梯度不會在NTPtoken上傳播,從而有效避免了對原始生成能力的干擾。
圖6:使用標準LoRA和門控LoRA適配器訓練的模型收斂性分析。
加速能力分析
為了評估所提方法在生成速度上的提升,研究者們采用了自推測解碼算法(self-speculativedecoding)。
實驗最多運行100個生成步驟,若模型在第100步之前生成了句子結(jié)束符(end-of-sentencetoken),則提前終止生成過程。設(shè)總生成步驟數(shù)為T,總生成token數(shù)為G,則計算接受率(acceptancerate)為G/T。該指標反映了模型平均每一步生成多少個被接受的token,進而衡量所提方法帶來的加速效果。
接受率的理論最小值為1,因為每一步至少會生成一個token(即標準的下一個token預(yù)測)。最大理論值為k+1=9,其中k=8是訓練時使用的masktoken數(shù)量。
表1報告了模型在五個不同任務(wù)領(lǐng)域下的接受率,包括:知識問答、數(shù)學、編程、對話和安全。
如表所示,所提出的多token生成算法在不同任務(wù)上實現(xiàn)了約1.5到5.2倍不等的加速,具體取決于任務(wù)類型及插入的mask數(shù)量。值得注意的是,在編程和數(shù)學任務(wù)中,加速效果更為顯著,可能是因為這些領(lǐng)域中未來token的可預(yù)測性較高。
表1:Tulu-3在不同領(lǐng)域中通過多標記預(yù)測獲得的加速。
消融實驗
表1中的結(jié)果對應(yīng)于本方法的最優(yōu)配置,包含以下三個關(guān)鍵組件:
(1)使用采樣器MLP頭(samplerMLPhead);
(2)訓練過程中引入LCM損失(LCMloss);
(3)生成階段采用二次解碼算法(quadraticdecodingalgorithm)。
研究者們對各個組件的貢獻進行了消融實驗。
圖7:MTP模型的簡單配置和最先進配置所達到的平均加速效果。基礎(chǔ)版本使用線性解碼,不包含LCM損失或采樣頭,而高級版本則包含LCM損失、采樣頭和二次解碼。
研究者們訓練了多個不同LoRA秩的模型,以進一步探索其影響。圖8總結(jié)了相關(guān)結(jié)果:左側(cè)與中間子圖分別展示了在未使用與使用采樣器頭的條件下的接受率;右側(cè)子圖則展示了采樣器頭與LoRA參數(shù)所帶來的顯存開銷。
圖8:LoRA秩的影響:無采樣頭加速(左),帶采樣頭加速(中),以及LoRA和采樣頭的內(nèi)存開銷(右)。
總結(jié)
研究者們評估了自回歸模型在語言模型有監(jiān)督微調(diào)階段對多token預(yù)測任務(wù)的適應(yīng)能力。未來值得探索的一個方向,是在預(yù)訓練階段或下游任務(wù)自適應(yīng)階段引入該方法,以進一步檢驗其適用性與效果。另一個具有前景的研究方向是將基于擴散的生成方法應(yīng)用于多token預(yù)測任務(wù)。研究者們認為,多token預(yù)測位于完全自回歸生成與完全擴散生成之間,能夠在兩者之間取得優(yōu)勢的平衡,兼具效率與質(zhì)量的潛力。
更多信息,請參閱原論文。
(完整版)2600個前后鼻音詞組串記,趣味故事記憶法
”沒想到,李誕一語成畿,只是這次不是被逼平,而是被摩擦;另一件事便是李小璐終于離婚了,雖然我不關(guān)心這些所謂明星的家事,因為太亂,看著都累,無奈打開各種資訊平臺,鋪天蓋地全都是,只能姑且看之。本來這樣的瓜,吃吃也就完了,讓我感興趣的是這兩件事的聲明,一則是中國足協(xié)對于輸球的聲明:世界杯預(yù)選還有呢?
周琦與約基奇十年比較:都是二輪秀,最大的差別是對待籃球的態(tài)度
剛剛,媒體報道漫威超級英雄“鷹眼”扮演者杰瑞米·雷納在家門口鏟雪的時候,被鏟雪車碾壓-。情況很嚴重,幾噸重的東西從身上壓過去,不死也得殘廢。報道中聲稱杰瑞米是1號的時候,在內(nèi)華達州自家后院清理積雪,鏟雪車突然不受控制從他的身上碾過,造成了杰瑞米胸部、腿部受傷嚴重,而且是大面積受損,直接被直升機好了吧!
國內(nèi)這12個絕美小眾地,沒點生活壓力的人我都不建議你去
好好享受愛情_。緣分盡了,也不必偽裝。反正這只是她們生活的一部分,而不是全部。反正她們在告別這段感情之后,依然可以擁抱更好的未來-_。這就難怪,網(wǎng)友@蕎麥chen 說:以前明星離婚。吃瓜群眾會失聲痛哭:“再也不相信愛情了!”現(xiàn)在明星離婚。吃瓜群眾齊聲喝彩:“姐姐好棒!”我們進步了|。End- 有幫助請點贊。
來源:紅網(wǎng)
作者:仙紅豆
編輯:阮旭麟
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。