夢晨發(fā)自凹非寺量子位|公眾號QbitAI
在ACL2025的頒獎典禮上,由DeepSeek梁文鋒作為通訊作者、與北京大學等聯(lián)合發(fā)表的論文榮獲最佳論文獎。
這次ACL2025規(guī)模空前,總投稿量達到8360篇,相較于去年的4407篇幾乎翻倍,競爭異常激烈。
簡單來說,他們提出的原生稀疏注意力(NSA)機制,通過算法與硬件的協(xié)同優(yōu)化,直接把長文本處理速度提升了11倍。更厲害的是,性能不僅沒降反而還超越了傳統(tǒng)的全注意力模型。
一作袁境陽在會上發(fā)表演講,透露這項技術(shù)可以把上下文長度擴展到1百萬tokens,將被應(yīng)用到下一個前沿模型中。
結(jié)合論文發(fā)表于DeepSeek-R1推出之后,實驗設(shè)置中也提到使用了DeepSeek-R1的蒸餾數(shù)據(jù)來微調(diào)了新的模型。
大家紛紛猜測,這項技術(shù)將被用于下一代DeepSeek-V4以及DeepSeek-R2。
給注意力機制瘦身,速度狂飆11倍
長久以來,大語言模型處理長文本就像是戴著鐐銬跳舞。傳統(tǒng)的全注意力機制計算復雜度隨序列長度呈平方級增長,處理64k長度的文本時,注意力計算竟然要占到總延遲的70-80%。
這篇論文的解決思路很巧妙:既然不是所有詞之間的關(guān)系都同等重要,為什么不讓模型學會”抓重點”呢?
NSA采用了一種動態(tài)分層的稀疏策略,通過三條并行的注意力分支協(xié)同工作:
壓縮注意力,負責捕捉粗粒度的全局信息模式,就像快速瀏覽全文抓住大意;選擇性注意力,則專注于序列中最重要的詞塊,相當于精讀關(guān)鍵段落;滑動注意力,負責獲取局部的上下文信息,確保細節(jié)不丟失。
這種設(shè)計最精妙的地方在于,它不是簡單地丟棄信息,而是通過精心設(shè)計的算法平衡了計算密度。
更重要的是,整個架構(gòu)針對現(xiàn)代GPU硬件進行了深度優(yōu)化,實現(xiàn)了端到端的原生可訓練模式。
在實際測試中,處理64k長度序列時,NSA在解碼、前向傳播和反向傳播的全生命周期中都展現(xiàn)出驚人的速度優(yōu)勢。
解碼階段速度提升11.6倍,前向傳播提升9倍,反向傳播也有6倍的加速,無論是模型推理還是訓練,都能獲得實實在在的效率提升。
不僅快還更準,長文本處理迎來新突破
速度快只是NSA的一面,更讓人驚訝的是它在各項基準測試中的表現(xiàn)。
在通用基準測試中,采用NSA預訓練的27B參數(shù)模型在9個評測指標中有7個超越了全注意力基線。特別是在推理相關(guān)的基準測試上,DROP提升了0.042,GSM8K提升了0.034,顯示出稀疏注意力在強制模型聚焦關(guān)鍵信息方面的獨特優(yōu)勢。
長文本處理能力的測試結(jié)果更是亮眼。在64k上下文的”大海撈針”測試中,NSA在所有位置都實現(xiàn)了完美的檢索準確率。在LongBench基準測試上,NSA取得了0.469的平均分,不僅超越了全注意力基線(+0.032),更是大幅領(lǐng)先其他稀疏注意力方法。
特別值得一提的是,在需要復雜推理的多跳問答任務(wù)上,NSA相比全注意力分別提升了0.087(HPQ)和0.051(2Wiki);在代碼理解任務(wù)(LCC)上提升了0.069;在段落檢索任務(wù)(PassR-en)上提升了0.075。
研究團隊還進行了一項有趣的實驗:
他們用DeepSeek-R1的數(shù)學推理數(shù)據(jù)對模型進行微調(diào),然后在美國數(shù)學邀請賽(AIME24)上測試。
結(jié)果顯示,NSA-R在8k上下文設(shè)置下的準確率達到0.121,而全注意力模型只有0.046;即使在16k上下文下,NSA-R仍然保持0.146的準確率,遠超全注意力的0.092。
這些結(jié)果充分證明了NSA不是通過犧牲性能來換取速度,而是真正實現(xiàn)了效率和能力的雙贏。
ThreeMoreThing
這次總共評選出4篇最佳論文,另外三篇包括:
北大團隊的《LanguageModelsResistAlignment:EvidenceFromDataCompression》
研究了大型語言模型的“彈性”,指模型經(jīng)過對齊訓練(讓模型符合人類價值觀、減少有害輸出)后,很容易因為后續(xù)的微調(diào)而變回預訓練時的狀態(tài),就像彈簧被拉伸后會反彈一樣。
這意味著現(xiàn)有的對齊方法可能只是表面上改變了模型,不夠穩(wěn)固。未來需要更有效的對齊技術(shù),才能讓模型真正穩(wěn)定地符合人類需求,尤其是在開源模型中,要避免惡意微調(diào)輕易破壞安全機制。
斯坦福團隊的《FairnessthroughDifferenceAwareness:MeasuringDesiredGroupDiscriminationinLLMs》
研究了大模型“公平性”上的一個新視角“差異感知”。簡單來說,就是模型應(yīng)該在合適的場景下對不同群體做出區(qū)分,而不是一味地一視同仁。
研究發(fā)現(xiàn)那些在傳統(tǒng)公平性測試中表現(xiàn)好的模型,在“差異感知”上得分并不高;模型能力越強(比如MMLU分數(shù)越高),情境感知能力越好,但差異感知能力未必提升;現(xiàn)有的“去偏見”方法(比如提示模型“保持無偏見”)反而會讓模型更無視差異,甚至把正確答案改錯。
亥姆霍茲信息安全中心等團隊的《ATheoryofResponseSamplinginLLMs:PartDescriptiveandPartPrescriptive》。
這篇論文指出大模型生成回答時的采樣機制與人類決策類似,包含描述性成分(反映概念的統(tǒng)計常態(tài))和規(guī)定性成分(隱含的概念理想狀態(tài))。
研究通過實驗驗證,無論是新創(chuàng)概念還是現(xiàn)有概念(涵蓋10個領(lǐng)域的500個概念),LLMs生成的樣本都會偏離統(tǒng)計平均值,向其認為的“理想值”偏移,且這種現(xiàn)象在15種不同模型中均顯著存在。案例研究顯示,這種偏向可能導致醫(yī)療等領(lǐng)域的有偏決策,引發(fā)倫理問題。
DeepSeek論文地址:https://arxiv.org/abs/2502.11089
參考鏈接:[1]https://x.com/aclmeeting/status/1950572483637067786[2]https://x.com/casper_hansen_/status/1950649481617342803
小說:穿梭諸天被當螻蟻?向南飛一笑,神靈盡滅!
小說:田少遇到與眾不同的靈魂,千辛萬苦,終于探尋到背后的秘密!
佛說阿彌陀經(jīng)全文原文解釋
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。