智東西作者陳駿達編輯李水青
智東西7月31日報道,昨天,第63屆計算語言學協(xié)會年會(ACL2025)在奧地利召開。作為自然語言處理領域最具學術(shù)影響力的會議之一,本屆ACL吸引了超過8300多篇論文的投稿,中國大陸科研人員在本屆ACL實現(xiàn)明顯突破。
最佳論文獎是ACL最受關(guān)注的獎項,今年ACL共評選出4篇最佳論文,其中2篇來自中國大陸,分別由北大、DeepSeek和華盛頓大學聯(lián)合團隊,以及北大-靈初智能聯(lián)合實驗室摘得。
DeepSeek等機構(gòu)的獲獎論文以原生稀疏注意力(NSA)為主題,第一作者為袁境陽。袁境陽在DeepSeek實習期間提出了NSA模型,現(xiàn)在在北京大學計算機學院攻讀博士學位。DeepSeek創(chuàng)始人兼CEO梁文鋒也出現(xiàn)在作者名單中。
NSA可用于超快速的長上下文訓練與推理,以性價比極高的方式,罕見地在訓練階段應用稀疏性,在訓推場景中均實現(xiàn)速度的明顯提升,特別是在解碼階段實現(xiàn)了高達11.6倍的提升。
論文鏈接:https://aclanthology.org/2025.acl-long.1126/
北大-靈初智能聯(lián)合實驗室首席科學家楊耀東博士團隊的獲獎論文,則揭示了大模型參數(shù)結(jié)構(gòu)中存在的一種彈性機制,并可能導致模型在后訓練階段產(chǎn)生抗拒對齊的行為。這一發(fā)現(xiàn)對AI治理和安全問題很有啟發(fā)意義。
論文鏈接:https://aclanthology.org/2025.acl-long.1141/
其余2篇最佳論文來自美國、德國。斯坦福大學、康奈爾大學(科技校區(qū))聯(lián)合團隊在獲獎論文中提供了一套評估算法公平性的基準測試,并發(fā)現(xiàn)現(xiàn)有促進算法公平性的手段存在誤區(qū),如果盲目使用可能會適得其反。
論文鏈接:https://aclanthology.org/2025.acl-long.341.pdf
由德國CISPA亥姆霍茲信息安全中心、TCSResearch以及微軟三家機構(gòu)合作的獲獎論文,則聚焦于大型語言模型在自主決策中的采樣偏差——揭示其背后由“描述性常態(tài)”與“規(guī)定性理想”共同塑造的啟發(fā)式機制,并通過公共衛(wèi)生與經(jīng)濟趨勢等現(xiàn)實案例,論證這種向理想值偏移的現(xiàn)象如何在實際應用中導致顯著偏差與倫理風險。
論文鏈接:https://aclanthology.org/2025.acl-long.1454/
ACL官方數(shù)據(jù)顯示,2025年,所有投稿論文中的第一作者中,有51.3%來自中國大陸,與去年30.6%的比例實現(xiàn)了明顯增長;今年所有作者中,中國大陸作者的比例也達到51%。過去兩年,美國在第一作者數(shù)量上均位居第二,不過比例已經(jīng)從2024年的29.6%下降至2025年的14.0%。
以下是本屆ACL中兩篇來自中國大陸的最佳論文的核心內(nèi)容梳理:
一、DeepSeek聯(lián)手北大:新型稀疏注意力機制,讓模型解碼狂飆11.6倍
北京大學、DeepSeek和華盛頓大學聯(lián)合團隊(后簡稱聯(lián)合團隊)的獲獎論文全名為《原生稀疏注意力:面向硬件對齊且可原生訓練的稀疏注意力機制(NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparseAttention)》,曾于今年2月份作為DeepSeek-R1開源的系列技術(shù)報告之一發(fā)布。
什么是稀疏注意力?與傳統(tǒng)注意力機制相比,稀疏注意力方法能通過選擇性計算關(guān)鍵的查詢鍵對來減少計算開銷。不過,現(xiàn)有許多稀疏注意力方法在實際推理中未能顯著降低延遲,還無法適應現(xiàn)代高效的解碼架構(gòu),也缺乏對訓練階段的支持。
聯(lián)合團隊希望解決現(xiàn)有稀疏注意力的兩大問題,一是事后稀疏化導致的性能退化,二是現(xiàn)有稀疏方法在長序列訓練的效率短板。
NSA的核心思想是通過動態(tài)分層稀疏策略,結(jié)合粗粒度的token壓縮和細粒度的token選擇,保留全局上下文感知能力和局部精確性。
在NSA機制中,模型會同時使用三種不同的注意力方式來處理輸入文本,每種方式都有它自己的擅長領域:
(1)壓縮注意力
這個分支把輸入的信息聚合成塊,捕捉粗粒度的語義信息,也就是對輸入內(nèi)容的關(guān)鍵信息進行總結(jié)提煉。壓縮注意力可以減少計算的工作量,但會損失細節(jié)。
(2)選擇性注意力
為了避免壓縮時遺漏重要內(nèi)容,NSA新增了選擇性注意力機制。這一機制給每一塊信息打個“重要程度”的分數(shù),并選擇最關(guān)鍵的信息進行更細致的計算。這樣既能保留關(guān)鍵細節(jié),又不會讓計算變得太復雜。
(3)滑動窗口注意力
這個分支負責處理文本中臨近的詞之間的關(guān)系。它會在固定大小的窗口內(nèi)計算注意力,比如只看當前詞前后的幾個詞,這樣可以更好地理解局部上下文。這個機制能防止模型太過依賴前兩個機制,而忽視鄰近詞之間的聯(lián)系。
整體來看,NSA通過這三種注意力機制互相配合,一方面節(jié)省計算資源,一方面又能兼顧全局語義和關(guān)鍵細節(jié)。
▲NSA架構(gòu)概覽
為測試NSA機制的實際效果,聯(lián)合團隊在同一模型的基礎上,分別使用了不同的注意力機制,比如傳統(tǒng)的全注意力機制、NSA機制等,并在多個測試任務上進行比較。
使用NSA機制的模型在9個測試中獲得了7項最佳成績,整體表現(xiàn)超過了其它所有方法,包括全注意力。尤其是在邏輯推理、問答等任務上,采用NSA機制的模型表現(xiàn)較好,這說明它能排除掉不重要的信息,把注意力集中在真正關(guān)鍵的部分。
除了質(zhì)量方面的提升,NSA還帶來效率方面的優(yōu)勢。聯(lián)合團隊在8張A100顯卡上做了測試,他們發(fā)現(xiàn):
(1)在64k長度的文本輸入下,NSA的前向計算速度是全注意力的9倍;
(2)反向計算速度是全注意力的6倍;
(3)在解碼時,NSA將速度提升至原有的11.6倍。
這些提速的關(guān)鍵在于NSA對硬件更友好,比如,其內(nèi)存訪問是按“塊”來走的,最大化了張量核心的利用率,而且內(nèi)部調(diào)度機制減少了不必要的計算負擔。
二、北大-靈初智能團隊:探索模型對齊困境,“彈性”機制或成開源模型隱憂
北大-靈初智能聯(lián)合實驗室首席科學家楊耀東博士團隊(后簡稱該團隊)的獲獎論文全名為《語言模型抗拒對齊:來自數(shù)據(jù)壓縮的證據(jù)(LanguageModelsResistAlignment:EvidenceFromDataCompression)》。這一研究揭示了一個關(guān)鍵問題:大語言模型在對齊時其實會反抗。
該團隊發(fā)現(xiàn),盡管我們可以通過各類對齊方式讓模型變得更“安全”、更“符合人類價值觀”,模型本身其實傾向于回到它原來預訓練時學到的原始分布。就像一個彈簧被拉伸后又想回到原始狀態(tài),這種行為被稱為“彈性”。
這種彈性體現(xiàn)在兩個方面:
(1)抵抗(Resistance):模型不太愿意改變自己,仍然保留原來的分布特征;
(2)反彈(Rebound):對模型對齊越深,它反彈回原始狀態(tài)的速度反而越快——如果用反方向訓練(比如取消之前的對齊過程),它很快就會打回原形。
研究還發(fā)現(xiàn),這種行為可以用壓縮率變化來衡量——也就是說,模型對不同數(shù)據(jù)集的學習壓縮程度變化,與數(shù)據(jù)量大小成反比。
為了進一步解釋這種行為,該團隊構(gòu)建了一個理論模型:語言模型訓練和對齊過程其實是一種信息壓縮過程。他們基于“壓縮定理”(compressiontheorem)和“壓縮協(xié)議”(compressionprotocol),從信息論的角度來分析模型為什么會產(chǎn)生“彈性”——這為理解為什么對齊不穩(wěn)定提供了數(shù)學框架。
最后,該團隊通過一系列實驗,驗證了這一現(xiàn)象在不同的大模型中都存在。這說明“彈性”并不是個別模型的特例,而是語言模型訓練過程中一種普遍的內(nèi)在機制。
因此,要想實現(xiàn)真正穩(wěn)固的對齊,不能只停留在表層的微調(diào),而必須深入理解并對抗這種由壓縮機制引發(fā)的反對齊傾向。
該團隊還基于模型彈性機制,提出了對開源策略的思考。
一方面,開源模型權(quán)重有助于研究者快速發(fā)現(xiàn)漏洞、推動大規(guī)模對齊與安全研究;另一方面,模型彈性也意味著,即便是通過審計和安全微調(diào)的模型,如果被公開,一旦出現(xiàn)更先進的反對齊手段,這些模型也可能很容易被重置到未對齊狀態(tài),大大降低模型“越獄”的門檻,破壞原有的安全機制,帶來現(xiàn)實風險。
結(jié)語:華人AI研究者集體崛起,安全成為ACL熱點議題
除了中國大陸團隊在最佳論文獎上的杰出表現(xiàn),ACL2025還見證了華人AI研究者的集體崛起。
本屆ACL評選出26篇杰出論文,這是重要性僅次于最佳論文的獎項。這26篇論文中,有13篇論文的第一作者為華人,占比達50%。這也顯示出,華人AI研究者在全球范圍內(nèi)的學術(shù)影響力,正不斷擴大。
值得一提是,ACL的獲獎論文中,有大量以AI安全、監(jiān)督、對齊等為主題,學術(shù)界對這些重要議題的關(guān)注,給產(chǎn)業(yè)界的AI研究提供了極為有益的補充。
《別在吃苦的年紀選擇安逸》:為夢想打拼的人,至少要懂6個真相...
人不可能輕而易舉地成功,在通往成功的道路上,必然都需要付出一定的代價-。在年輕的時候,你有更多的資本,比如時間、精力、勇氣,所以在這個階段,你更應該拋棄享樂,選擇奮斗,為自己的未來鋪路。正如《別在吃苦的年紀選擇安逸》書中的一句話:“讓努力配得上你的野心,不想苦一輩子,就要苦一陣子??傅米∑D難,才能配 在人生的旅途中,我們常常面臨著各種選擇,而這些選擇塑造了我們的未來_|。最近,我讀了一本書——《別在該吃苦的年紀選擇安逸》,它猶如一盞明燈,照亮了我前行的道路,也讓我對生活有了更深的思考_。這本書通過一個個生動的故事和深刻的道理,告訴我們在年輕的時候,應該勇敢地面對困難和挑戰(zhàn),努力拼搏,而不是貪圖到此結(jié)束了?。余生很貴,請別浪費,別在吃苦的年紀,選擇安逸??晚安墨然