作者熊璟,香港大學(xué)一年級博士生,師從黃毅教授和孔令鵬教授。已在ICLR、ICML、NeurIPS、ACL、EMNLP、TMLR等頂級會議/期刊發(fā)表論文,研究方向為高效大語言模型推理與自動定理證明。擔(dān)任NAACL、EMNLP、ACL、ICML、ICLR、NeurIPS、COLING等會議審稿人。個人主頁:https://menik1126.github.io/
引言:大模型長文本推理的瓶頸與突破
隨著大語言模型(LLMs)能力日益提升,AI對超長文本的理解和處理需求也變得前所未有地重要。然而,目前主流LLM雖然依賴旋轉(zhuǎn)位置編碼(RoPE)等機制,在訓(xùn)練階段能高效處理4K-8Ktokens級別的上下文,但一旦推理階段外推遇到如128K以上長度的長文本時,模型往往受到顯存瓶頸的限制和注意力下沉(attentionsink)等問題影響,采用常規(guī)的文本截斷方案容易出現(xiàn)信息遺失,這極大限制了大模型在實際場景中的應(yīng)用拓展。
業(yè)界目前嘗試的處理長文本的高效推理主要的瓶頸有兩個,一個是位置編碼的長度外推,再一個是長度外推中的內(nèi)存瓶頸。
目前的位置編碼包括兩類:一是基于頻率區(qū)分的NTK插值方法,為不同頻段位置編碼設(shè)計專屬策略以試圖拓展長度上限;二是各種分塊(chunking)方法,將文本切分、塊內(nèi)復(fù)用位置編碼,避免重新訓(xùn)練的高昂成本。在處理超長上下文(>128K)外推時,兩種方案的優(yōu)劣仍是未知的。
在解決顯存瓶頸時,普遍采用了KVcache壓縮的方案,并且一些方案發(fā)現(xiàn)在傳統(tǒng)自回歸場景下的注意力普遍遭遇了“注意力下沉”(AttentionSink)現(xiàn)象影響——模型的注意力極易集中在文本首尾,如果加以合理利用可以提升模型性能,但在并行注意力下的注意力下沉的機制是仍待探索的。
圖1:標(biāo)準(zhǔn)Attention和并行Attention機制下的注意力分布雖然有所不同,但都容易陷入這種“塌縮”狀態(tài)。而并行注意力機制在極長文本中產(chǎn)生的多峰新型“sink”現(xiàn)象,尚缺乏系統(tǒng)剖析與有效解決之道。
我們的創(chuàng)新:ParallelComp,高效超長文本推理新范式
針對上述問題,我們提出了一種全新的訓(xùn)練免調(diào)(Training-Free)長文本處理方案——ParallelComp,其核心包括并行Attention分塊、KV緩存智能淘汰與注意力偏差校準(zhǔn)三大技術(shù)創(chuàng)新。
論文標(biāo)題:ParallelComp:ParallelLong-ContextCompressorforLengthExtrapolation
論文鏈接:https://arxiv.org/abs/2502.14317
代碼鏈接:https://github.com/menik1126/ParallelComp
圖2:ParallelComp整體流程示意圖
1.并行分塊注意力,讓超長文本“輕松分段消化”
首先,ParallelComp借鑒并拓展了分塊思想,將輸入長文本按模型最大處理長度自動切分為若干塊(chunk),并與查詢一起并行輸入模型進(jìn)行本地Attention計算。這樣不僅可以獲得塊內(nèi)的注意力分布,還可以通過塊的位置編碼重用機制可以讓模型靈活外推至128K級別的序列長度而性能無明顯損失。(見圖2)
2.雙重淘汰機制,極致壓縮顯存消耗
分塊淘汰(ChunkEviction):基于每個塊內(nèi)部token對查詢的“自信息量”進(jìn)行在線打分,僅保留信息量最高、對當(dāng)前任務(wù)最相關(guān)的一部分文本塊,極大縮減內(nèi)存開銷。
KV緩存淘汰(ParallelKVCacheEviction):采用高效的FlashAttention推斷算法,動態(tài)評估每個token在Attention計算中的全局重要性,自動驅(qū)逐影響較小的token,實現(xiàn)了分塊粒度的KV緩存智能壓縮。
通過這兩項機制,全流程推理所需顯存可以壓縮到64G,且基于并行預(yù)填充過程即可完成高達(dá)128K長度推理任務(wù),顯著提升Batchinference和多GPU設(shè)置下的推理效率。
圖3:三類典型注意力偏置分布案例(U型、山峰型、均勻型)
圖4:幾種KVcache驅(qū)逐策略后的模型的分布
3.注意力偏差校準(zhǔn),攻克并行下的多峰“sink”現(xiàn)象
通過理論分析與大量可視化實證,我們發(fā)現(xiàn)并行分塊機制下,不同于經(jīng)典的U型AttentionSink,容易出現(xiàn)多峰、區(qū)域性異常(見圖3、圖4)。為此,我們提出在Attention分布中對異常高分token實施“偏差校準(zhǔn)”——分層驅(qū)逐被極端關(guān)注的token,使Attention分布趨于平滑,極大降低了模型關(guān)注“死角”和信息遺漏風(fēng)險。
進(jìn)一步的分層實驗揭示,不同類型注意力偏差(“首段偏置”“尾段偏置”“中部塌縮”)可分別通過不同深度層的token淘汰策略加以緩解,為長文本推理設(shè)計提供了細(xì)致化的實操指引。
一個有趣的觀察是有些特定層的注意力偏差對模型的上下文學(xué)習(xí)能力和推理能力至關(guān)重要。
i)淺層(第1-8層)的首段偏置對于檢索類任務(wù)至關(guān)重要。去除這些token會顯著削弱模型性能。
ii)深層(第9-16層)的尾段偏置在模型推理能力中起到關(guān)鍵作用。淘汰這些token會導(dǎo)致編碼和數(shù)學(xué)任務(wù)的性能下降。
iii)淺層的中部偏置(第1-8層)會損害模型的理解能力,淘汰這些token反而能夠提升模型表現(xiàn)。而深層的中部偏置(第24-31層)有助于模型在閱讀理解任務(wù)(如En.MC)中的能力,去除它們會降低模型表現(xiàn)。
iv)早期層(第1-8層)的尾段偏置對于模型的上下文學(xué)習(xí)能力同樣非常重要。
理論與實驗分析
我們的理論分析表明,并行Attention下“稀疏性”與“有效信息量”之間存在量化可控的門檻。隨著chunk數(shù)量增多和長度變長,Attention大概率只會專注于極少數(shù)token。合理選擇稀疏參數(shù)、分層校準(zhǔn)策略,可在計算效率與信息保真度之間取得最優(yōu)平衡。
表2:在longbench上的性能。
表3:在infinitebench上的性能。
表4:PPL的性能
表5:加速比和性能分析
大規(guī)模實驗顯示,ParallelComp在A100-80GB單卡環(huán)境中,模型推理長度從8K無縫外推至128K,prefilling階段加速高達(dá)23.5倍;使用僅8B參數(shù)、且僅在8K上下文訓(xùn)練的小模型即可在超長文本任務(wù)中整體性能達(dá)到GPT-4o性能的91.17%,在特定任務(wù)下可以超過GPT-4o的性能,甚至超過Claude-2和Kimi-Chat等高參數(shù)閉源大模型。這一成果充分證明,我們的方法不僅適用于算力受限場景,更為LLM實際落地部署帶來了嶄新范式。
結(jié)論與展望
ParallelComp為長文本推理時代的LLM結(jié)構(gòu)創(chuàng)新帶來了“多快好省”的系統(tǒng)級躍升——無需新訓(xùn)練、僅借助智能分塊和淘汰機制,即可極大提升處理長度、效率,并擺脫原有的注意力失衡難題。我們期待該方法未來在法律文檔、醫(yī)學(xué)文獻(xiàn)、長篇小說等需求復(fù)雜的產(chǎn)業(yè)應(yīng)用中進(jìn)一步開花結(jié)果。
神秘前鋒球場大秀絕技,笑容背后隱藏何種秘密
《這個前鋒不正經(jīng)》作者:肉末大茄子第一章我的隊友是杜蘭特……德克薩斯州,奧斯汀|——。林影背靠墻側(cè)頭望著窗外,正坐在宿舍的床上休息。他現(xiàn)在在的地方是德克薩斯大學(xué)奧斯汀分校-_。奧斯汀分校又叫做德州大學(xué),是德克薩斯大學(xué)系統(tǒng)里最知名的學(xué)校,全美最負(fù)盛名的“公立常春藤”的最初八院校之一_-。他之所以能出現(xiàn)在這里,并不是因為學(xué)業(yè)有多好, 林影這時候皺起眉頭。如果一對一賴特要蓋杜蘭特很困難,但是包夾中杜蘭特需要考慮的東西太多,這才給了賴特機會|。不過這并不是讓他皺眉的原因,讓他皺眉的真正原因是堪薩斯的戰(zhàn)術(shù)素養(yǎng)。前面他看到堪薩斯訓(xùn)練只是冰山一角,比起之前交手過的堪薩斯州立和密蘇里,堪薩斯實在強出太多了_。德州大學(xué)的退防還算迅速,沒給堪薩說完了_。穿越成前鋒,無系統(tǒng)卻成MVP,汗水鑄就傳奇之路