在剛剛舉辦的計(jì)算語言學(xué)和自然語言處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議ACL上,由DeepSeek創(chuàng)始人梁文鋒親自署名的論文從8000多篇論文中脫穎而出,成為本屆大會(huì)的最佳論文之一。
(來源:資料圖)
該論文的其他合作者分別來自北京大學(xué)和美國(guó)華盛頓大學(xué),擔(dān)任第一作者的是JingyangYuan。
圖|JingyangYuan(來源:https://ieeexplore.ieee.org/autho)
在這篇論文中,他們提出了一種名為NSA的本機(jī)可訓(xùn)練的稀疏注意力機(jī)制,該機(jī)制將算法創(chuàng)新與硬件優(yōu)化相結(jié)合,以實(shí)現(xiàn)高效的長(zhǎng)上下文建模。
NSA采用了一種動(dòng)態(tài)分層稀疏策略,將粗粒度token壓縮與細(xì)粒度token選擇相結(jié)合,以同時(shí)保持全局上下文感知和局部精確性。
這一方法通過以下兩項(xiàng)關(guān)鍵創(chuàng)新推動(dòng)了稀疏注意力設(shè)計(jì)的發(fā)展:
一方面,他們通過設(shè)計(jì)算術(shù)強(qiáng)度平衡的算法,并結(jié)合針對(duì)現(xiàn)代硬件的實(shí)現(xiàn)優(yōu)化,實(shí)現(xiàn)了顯著的速度提升。
另一方面,他們實(shí)現(xiàn)了端到端的訓(xùn)練,在不犧牲模型性能的前提下減少了預(yù)訓(xùn)練的計(jì)算量。
如下圖所示,實(shí)驗(yàn)表明,在通用基準(zhǔn)測(cè)試、長(zhǎng)上下文任務(wù)和基于指令的推理任務(wù)中,使用NSA預(yù)訓(xùn)練的模型表現(xiàn)與全注意力模型相當(dāng)或更優(yōu)。
(來源:https://arxiv.org/pdf/2502.11089)
同時(shí),在解碼、前向傳播和后向傳播方面,NSA在64k長(zhǎng)度序列上相較于全注意力機(jī)制實(shí)現(xiàn)了顯著加速,驗(yàn)證了其在整個(gè)模型生命周期中的效率。
圖|相關(guān)論文(來源:https://arxiv.org/pdf/2502.11089)
長(zhǎng)上下文建模是下一代大模型的關(guān)鍵能力
研究界日益認(rèn)識(shí)到,長(zhǎng)上下文建模是下一代大模型的關(guān)鍵能力,其推動(dòng)因素是現(xiàn)實(shí)世界中的各種應(yīng)用,包括深度推理、庫(kù)級(jí)代碼生成和多輪自主代理系統(tǒng)。然而,標(biāo)準(zhǔn)注意力機(jī)制的高計(jì)算成本帶來了巨大的計(jì)算挑戰(zhàn)。稀疏注意力機(jī)制為在保持模型性能的同時(shí)提高效率提供了一個(gè)有前景的方向。
最近領(lǐng)域內(nèi)的一些突破,包括OpenAI的o系列模型、DeepSeek-R1和Gemini1.5Pro,使模型能夠處理整個(gè)代碼庫(kù)、長(zhǎng)文檔,在數(shù)千個(gè)token上保持連貫的多輪對(duì)話,并在較長(zhǎng)依賴關(guān)系中進(jìn)行復(fù)雜推理。
然而,隨著序列長(zhǎng)度的增加,基礎(chǔ)注意力機(jī)制的高度復(fù)雜性成為關(guān)鍵的延遲瓶頸。
理論估計(jì)表明,在解碼64k長(zhǎng)度上下文時(shí),采用softmax架構(gòu)進(jìn)行注意力計(jì)算占總延遲的70%至80%,這凸顯出人們迫切需要更高效的注意力機(jī)制。
實(shí)現(xiàn)高效長(zhǎng)上下文建模的一種自然方法是利用softmax注意力機(jī)制的固有稀疏性,即選擇性地計(jì)算關(guān)鍵的查詢-鍵對(duì),這可以在保持性能的同時(shí)顯著降低計(jì)算開銷。近期的研究進(jìn)展通過多種策略展示了這一潛力:鍵值(KV)緩存淘汰方法、分塊KV緩存選擇方法,以及基于采樣、聚類或哈希的選擇方法。
盡管這些策略頗具前景,但現(xiàn)有的稀疏注意力方法在實(shí)際部署中往往表現(xiàn)不佳。許多方法未能實(shí)現(xiàn)與其理論增益相當(dāng)?shù)乃俣忍嵘?;此外,大多?shù)方法缺乏有效的訓(xùn)練時(shí)間支持,無法充分利用注意力機(jī)制的稀疏模式。
為了克服這些局限性,部署有效的稀疏注意力機(jī)制必須應(yīng)對(duì)兩個(gè)關(guān)鍵挑戰(zhàn):
(1)解決硬件適配的推理加速挑戰(zhàn):將理論計(jì)算減少轉(zhuǎn)化為實(shí)際速度提升,需要在預(yù)填充和解碼階段都進(jìn)行硬件友好的算法設(shè)計(jì),以便緩解內(nèi)存訪問和硬件調(diào)度瓶頸;
(2)解決訓(xùn)練感知算法設(shè)計(jì)的挑戰(zhàn):通過可訓(xùn)練算子實(shí)現(xiàn)端到端的計(jì)算,以便降低訓(xùn)練成本,同時(shí)還得保持模型性能。這些要求對(duì)于實(shí)際應(yīng)用實(shí)現(xiàn)快速長(zhǎng)上下文推理或訓(xùn)練至關(guān)重要。當(dāng)同時(shí)考慮這兩個(gè)方面時(shí),現(xiàn)有方法仍然存在顯著的差距。
因此,為了實(shí)現(xiàn)更有效且高效的稀疏注意力機(jī)制,他們提出了NSA這種原生可訓(xùn)練的稀疏注意力架構(gòu),并集成了分層token建模。如下圖所示,NSA通過將鍵和值組織成時(shí)間塊,并通過三條注意力路徑來處理它們,從而減少每次查詢的計(jì)算量:壓縮的粗粒度token、選擇性保留的細(xì)粒度token以及用于獲取局部上下文信息的滑動(dòng)窗口。
(來源:https://arxiv.org/pdf/2502.11089)
然后可以實(shí)現(xiàn)專門的核函數(shù),以最大限度地提高其實(shí)用效率。針對(duì)上述關(guān)鍵需求,NSA推出了兩項(xiàng)核心創(chuàng)新:
首先是硬件對(duì)齊系統(tǒng):針對(duì)TensorCore的利用率和內(nèi)存訪問,優(yōu)化塊級(jí)稀疏注意力機(jī)制,確保算術(shù)強(qiáng)度平衡。
其次是訓(xùn)練感知設(shè)計(jì):通過高效算法和反向操作符實(shí)現(xiàn)穩(wěn)定的端到端訓(xùn)練。這一優(yōu)化使NSA能夠同時(shí)支持高效部署和端到端訓(xùn)練。
研究中,該團(tuán)隊(duì)通過在真實(shí)世界語言語料庫(kù)上的綜合實(shí)驗(yàn)來評(píng)估NSA。在擁有2600億個(gè)token的270億參數(shù)的Transformer主干網(wǎng)絡(luò)上進(jìn)行預(yù)訓(xùn)練后,他們?cè)u(píng)估了NSA在通用語言評(píng)估、長(zhǎng)上下文評(píng)估和思維鏈推理評(píng)估中的表現(xiàn)。并進(jìn)一步比較了在英偉達(dá)A100GPU上采用優(yōu)化Triton實(shí)現(xiàn)的核速度。實(shí)驗(yàn)結(jié)果表明,NSA的性能與全注意力基線相當(dāng)或更優(yōu),同時(shí)優(yōu)于現(xiàn)有的稀疏注意力方法。此外,與全注意力機(jī)制相比,NSA在解碼、前向和后向階段均實(shí)現(xiàn)了顯著加速,且隨著序列長(zhǎng)度的增加,加速比也隨之提高。這些結(jié)果驗(yàn)證了他們的分層稀疏注意力設(shè)計(jì)有效地平衡了模型能力和計(jì)算效率。
三個(gè)角度評(píng)估NSA
實(shí)驗(yàn)中,他們從以下三個(gè)角度來評(píng)估NSA:通用基準(zhǔn)性能、長(zhǎng)上下文基準(zhǔn)性能以及思維鏈推理性能,并與全注意力基線以及當(dāng)前最先進(jìn)的稀疏注意力方法進(jìn)行比較。
遵循最先進(jìn)的大模型的常見做法,他們的實(shí)驗(yàn)采用了一種結(jié)合分組查詢注意力(GQA,Grouped-QueryAttention)和混合專家(MoE,Mixture-of-Experts)的骨干網(wǎng)絡(luò),總參數(shù)為270億,其中活躍參數(shù)為30億。該模型由30層組成,隱藏層維度為2560。對(duì)于GQA,他們將組數(shù)設(shè)置為4,總共有64個(gè)注意力頭。對(duì)于MoE,他們采用了DeepSeekMoE結(jié)構(gòu),該結(jié)構(gòu)包含72個(gè)路由專家和2個(gè)共享專家,并將top-k專家數(shù)設(shè)置為6。為確保訓(xùn)練穩(wěn)定性,第一層中的MoE被替換為SwiGLU形式的MLP。
該團(tuán)隊(duì)在論文中指出,其所提出的架構(gòu)在計(jì)算成本和模型性能之間實(shí)現(xiàn)了有效的權(quán)衡。其將全注意力模型和稀疏注意力模型均在2700億個(gè)8k長(zhǎng)度文本的token上進(jìn)行預(yù)訓(xùn)練,隨后使用YaRN在32k長(zhǎng)度文本上進(jìn)行持續(xù)訓(xùn)練和監(jiān)督微調(diào),以實(shí)現(xiàn)長(zhǎng)上下文適應(yīng)。兩種模型都經(jīng)過充分訓(xùn)練以實(shí)現(xiàn)完全收斂,以確保公平比較。如下圖所示,NSA和全注意力(FullAttention)基線的預(yù)訓(xùn)練損失曲線呈現(xiàn)出穩(wěn)定且平滑的下降趨勢(shì),且NSA模型的表現(xiàn)始終優(yōu)于全注意力模型。
(來源:https://arxiv.org/pdf/2502.11089)
除了與全注意力(FullAttention)方法進(jìn)行比較外,他們還評(píng)估了幾種最先進(jìn)的推理階段稀疏注意力方法:H2O、infLLM、Quest和Exact-Top,這些方法首先計(jì)算全注意力得分,并選擇與每個(gè)查詢相對(duì)應(yīng)的前幾個(gè)得分最高的鍵,然后計(jì)算這些位置上的注意力。與此同時(shí),這些方法涵蓋了多種稀疏注意力范式。
在一般評(píng)估中,當(dāng)大多數(shù)樣本的長(zhǎng)度位于稀疏注意力基線的局部上下文窗口內(nèi)時(shí),這些方法實(shí)際上等同于全注意力方法。因此,在這種設(shè)置之下,該團(tuán)隊(duì)僅展示了NSA與全注意力基線之間的比較結(jié)果。在長(zhǎng)文本評(píng)估中,他們對(duì)所有基線方法進(jìn)行了比較,并將所有稀疏注意力方法的稀疏度設(shè)置為相同,以便確保比較的公平性。對(duì)于需要進(jìn)行長(zhǎng)文本監(jiān)督微調(diào)的思維鏈推理評(píng)估,他們僅將比較范圍限定在全注意力模型上,因?yàn)橄∈枳⒁饬€模型不支持訓(xùn)練。
在一系列涵蓋知識(shí)、推理和編碼能力的綜合基準(zhǔn)測(cè)試上,該團(tuán)隊(duì)對(duì)預(yù)訓(xùn)練的NSA和全注意力基線進(jìn)行了評(píng)估,這些基準(zhǔn)測(cè)試包括MMLU、MMLU-PRO、CMMLU、BBH、GSM8K、MATH、DROP、MBPP和HumanEval。
圖|對(duì)比結(jié)果(來源:https://arxiv.org/pdf/2502.11089)
盡管NSA較為簡(jiǎn)潔,但其整體表現(xiàn)卻十分出色,在9項(xiàng)指標(biāo)中有7項(xiàng)優(yōu)于包括全注意力機(jī)制在內(nèi)的所有基線模型。這表明,盡管在較短序列上,NSA可能無法充分發(fā)揮其效率優(yōu)勢(shì),但其表現(xiàn)仍然強(qiáng)勁。值得注意的是,NSA在推理相關(guān)基準(zhǔn)測(cè)試中表現(xiàn)出了顯著的提升(DROP:+0.042,GSM8K:+0.034),這表明該團(tuán)隊(duì)所使用的預(yù)訓(xùn)練有助于模型發(fā)展出專門的注意力機(jī)制。這種稀疏注意力預(yù)訓(xùn)練機(jī)制迫使模型聚焦于最重要的信息,通過過濾掉無關(guān)注意力路徑中的噪聲,從而能夠潛在地提升性能。在不同評(píng)估中的一致表現(xiàn)也驗(yàn)證了NSA作為一種通用架構(gòu)的穩(wěn)健性。
同時(shí),他們還進(jìn)行了長(zhǎng)上下文評(píng)估。如下圖所示,在64k上下文的“大海撈針”測(cè)試中,NSA在所有位置均實(shí)現(xiàn)了完美的檢索準(zhǔn)確率。
(來源:https://arxiv.org/pdf/2502.11089)
這種表現(xiàn)源于該團(tuán)隊(duì)的分層稀疏注意力設(shè)計(jì)方案,該設(shè)計(jì)方案結(jié)合了壓縮token以便實(shí)現(xiàn)高效的全局上下文掃描,以及能夠通過選擇token實(shí)現(xiàn)精確的局部信息檢索。粗粒度壓縮則能以較低的計(jì)算成本識(shí)別出相關(guān)的上下文塊,而對(duì)選定token的token級(jí)注意力能夠確保關(guān)鍵細(xì)粒度信息的保留。這種設(shè)計(jì)使得NSA既能保持全局感知,又能確保局部精確性。
該團(tuán)隊(duì)還在LongBench上對(duì)NSA與最先進(jìn)的稀疏注意力方法和全注意力基線進(jìn)行了評(píng)估。為確保稀疏性一致,他們將所有稀疏注意力基線中每個(gè)查詢激活的token設(shè)置為2560個(gè),這對(duì)應(yīng)于在處理32k序列長(zhǎng)度時(shí),NSA中激活的token的平均數(shù)量。繼StreamLLM之后,該token預(yù)算包括前128個(gè)token和512個(gè)本地token。他們排除了LongBench中的某些子集,因?yàn)樗鼈冊(cè)谒心P椭械牡梅侄己艿?,可能無法提供有意義的比較。如下表所示,NSA取得了最高的平均分0.469,優(yōu)于所有基線方法(比全注意力機(jī)制高出0.032,比精確頂部方法高出0.046)。
(來源:https://arxiv.org/pdf/2502.11089)
這一優(yōu)異表現(xiàn)源于以下兩項(xiàng)關(guān)鍵創(chuàng)新:第一,他們獨(dú)創(chuàng)的稀疏注意力設(shè)計(jì),能夠在預(yù)訓(xùn)練期間對(duì)稀疏模式進(jìn)行端到端的優(yōu)化,促進(jìn)稀疏注意力模塊與其他模型組件之間的同步適應(yīng);第二,分層稀疏注意力機(jī)制實(shí)現(xiàn)了局部和全局信息處理之間的平衡。
值得注意的是,NSA在需要長(zhǎng)上下文復(fù)雜推理的任務(wù)上表現(xiàn)出色,在多跳問答任務(wù)(HPQ和2Wiki)上相較于全注意力機(jī)制分別提升了+0.087和+0.051,在代碼理解任務(wù)上超越了基線模型(LCC:+0.069),并且在段落檢索任務(wù)上優(yōu)于其他方法(PassR-en:+0.075)。這些結(jié)果驗(yàn)證了NSA在處理多樣化長(zhǎng)上下文挑戰(zhàn)的能力,其原生預(yù)訓(xùn)練的稀疏注意力在學(xué)習(xí)任務(wù)最優(yōu)模式方面提供了額外優(yōu)勢(shì)。
在思維鏈推理評(píng)估中,為了評(píng)估NSA與先進(jìn)下游訓(xùn)練范式的兼容性,該團(tuán)隊(duì)研究了其通過后訓(xùn)練獲取思維鏈數(shù)學(xué)推理能力的能力。鑒于強(qiáng)化學(xué)習(xí)在較小規(guī)模模型上的效果有限,他們采用了DeepSeek-R1的知識(shí)蒸餾方法,利用100億個(gè)32k長(zhǎng)度數(shù)學(xué)推理軌跡的token進(jìn)行監(jiān)督微調(diào)(SFT,supervisedfine-tuning)。這產(chǎn)生了兩個(gè)可比較的模型:FullAttention-R(全注意力基線模型)和NSA-R(該團(tuán)隊(duì)的稀疏變體模型)。他們?cè)贏IME24基準(zhǔn)測(cè)試中評(píng)估了這兩個(gè)模型。為了驗(yàn)證推理深度的影響,他們?cè)趦煞N上下文限制(8k和16k個(gè)token)下進(jìn)行了實(shí)驗(yàn),以便衡量擴(kuò)展推理鏈?zhǔn)欠衲芴岣邷?zhǔn)確性。
如下表所示,在8k上下文設(shè)置下,NSA-R的準(zhǔn)確率顯著高于全注意力-R(+0.075),且在16k上下文設(shè)置下,這一優(yōu)勢(shì)仍然存在(+0.054)。
(來源:https://arxiv.org/pdf/2502.11089)
這些結(jié)果驗(yàn)證了原生稀疏注意力機(jī)制的兩大關(guān)鍵優(yōu)勢(shì):(1)預(yù)訓(xùn)練的稀疏注意力模式能夠高效捕捉對(duì)復(fù)雜數(shù)學(xué)推導(dǎo)至關(guān)重要的長(zhǎng)距離邏輯依賴關(guān)系;(2)本次架構(gòu)采用與硬件相匹配的設(shè)計(jì),保持了足夠的上下文密度,以支持不斷增加的推理深度,同時(shí)避免災(zāi)難性遺忘。
這種在不同上下文長(zhǎng)度上的一致性表現(xiàn)證明,當(dāng)稀疏注意力機(jī)制被原生整合到訓(xùn)練流程中時(shí),它能夠勝任高級(jí)推理任務(wù)。
(來源:https://openreview.net/profile?id=~Jingyang_Yuan1)
另?yè)?jù)悉,擔(dān)任本次論文第一作者兼通訊作者的JingyangYuan于2022年獲得北京大學(xué)計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,預(yù)計(jì)將于2027年從北京大學(xué)博士畢業(yè),他的研究方向包括圖表示學(xué)習(xí)、神經(jīng)物理模擬、大模型等。
參考資料:
https://ieeexplore.ieee.org/author/37090050318
https://scholar.google.com/citations?user=mDwlqfkAAAAJ&hl=en
https://arxiv.org/pdf/2502.11089
運(yùn)營(yíng)/排版:何晨龍
隨身空間:穿回七零;她把千萬個(gè)超市裝滿空間,閃婚戰(zhàn)狼成軍嫂
蘇錦繡只覺得自己渾身的血液都熱了起來,鬼使神差拿起了放在門邊的鋤頭,對(duì)著張翠花就要打下去|-。(點(diǎn)擊下方在線免費(fèi)閱讀)第二本:《他從風(fēng)雪來此》作者:撿玫瑰花的小王子精彩劇情提前觀看:隨身空間: 穿回七零; 她把千萬個(gè)超市裝滿空間,閃婚戰(zhàn)狼成軍嫂!我緩住步子,“楊小姐,對(duì)不起……我來晚了 第一本:《重生七零:大佬錦鯉日常》作者:青蔥拌豆腐簡(jiǎn)介:隨身空間:穿回七零,她把千萬個(gè)商場(chǎng)裝滿空間,閃婚戰(zhàn)狼成軍嫂!重生七十年代,柳茜茜懵逼了!爹娘偏著自己,兄嫂偏著自己,連小侄子都偏著自己,感情還挺受寵哈!精彩內(nèi)容:“我們家茜茜就是孝順,說是讓我和她爹休息休息,這不,我也沒有想到我們家說完了。穿回七零逆襲路,糙漢退伍歸,空間萌寶在手,嬌妻被寵翻天