10萬日元和二十世紀(jì)最后一部實(shí)驗(yàn)型作品
如何看待 7 月 26 日《名人面對面》節(jié)目對樊振東的專訪?
智東西作者陳駿達(dá)編輯李水青
智東西7月31日報道,昨天,第63屆計算語言學(xué)協(xié)會年會(ACL2025)在奧地利召開。作為自然語言處理領(lǐng)域最具學(xué)術(shù)影響力的會議之一,本屆ACL吸引了超過8300多篇論文的投稿,中國大陸科研人員在本屆ACL實(shí)現(xiàn)明顯突破。
最佳論文獎是ACL最受關(guān)注的獎項(xiàng),今年ACL共評選出4篇最佳論文,其中2篇來自中國大陸,分別由北大、DeepSeek和華盛頓大學(xué)聯(lián)合團(tuán)隊(duì),以及北大-靈初智能聯(lián)合實(shí)驗(yàn)室摘得。
DeepSeek等機(jī)構(gòu)的獲獎?wù)撐囊栽∈枳⒁饬Γ∟SA)為主題,第一作者為袁境陽。袁境陽在DeepSeek實(shí)習(xí)期間提出了NSA模型,現(xiàn)在在北京大學(xué)計算機(jī)學(xué)院攻讀博士學(xué)位。DeepSeek創(chuàng)始人兼CEO梁文鋒也出現(xiàn)在作者名單中。
NSA可用于超快速的長上下文訓(xùn)練與推理,以性價比極高的方式,罕見地在訓(xùn)練階段應(yīng)用稀疏性,在訓(xùn)推場景中均實(shí)現(xiàn)速度的明顯提升,特別是在解碼階段實(shí)現(xiàn)了高達(dá)11.6倍的提升。
論文鏈接:https://aclanthology.org/2025.acl-long.1126/
北大-靈初智能聯(lián)合實(shí)驗(yàn)室首席科學(xué)家楊耀東博士團(tuán)隊(duì)的獲獎?wù)撐?,則揭示了大模型參數(shù)結(jié)構(gòu)中存在的一種彈性機(jī)制,并可能導(dǎo)致模型在后訓(xùn)練階段產(chǎn)生抗拒對齊的行為。這一發(fā)現(xiàn)對AI治理和安全問題很有啟發(fā)意義。
論文鏈接:https://aclanthology.org/2025.acl-long.1141/
其余2篇最佳論文來自美國、德國。斯坦福大學(xué)、康奈爾大學(xué)(科技校區(qū))聯(lián)合團(tuán)隊(duì)在獲獎?wù)撐闹刑峁┝艘惶自u估算法公平性的基準(zhǔn)測試,并發(fā)現(xiàn)現(xiàn)有促進(jìn)算法公平性的手段存在誤區(qū),如果盲目使用可能會適得其反。
論文鏈接:https://aclanthology.org/2025.acl-long.341.pdf
由德國CISPA亥姆霍茲信息安全中心、TCSResearch以及微軟三家機(jī)構(gòu)合作的獲獎?wù)撐?,則聚焦于大型語言模型在自主決策中的采樣偏差——揭示其背后由“描述性常態(tài)”與“規(guī)定性理想”共同塑造的啟發(fā)式機(jī)制,并通過公共衛(wèi)生與經(jīng)濟(jì)趨勢等現(xiàn)實(shí)案例,論證這種向理想值偏移的現(xiàn)象如何在實(shí)際應(yīng)用中導(dǎo)致顯著偏差與倫理風(fēng)險。
論文鏈接:https://aclanthology.org/2025.acl-long.1454/
ACL官方數(shù)據(jù)顯示,2025年,所有投稿論文中的第一作者中,有51.3%來自中國大陸,與去年30.6%的比例實(shí)現(xiàn)了明顯增長;今年所有作者中,中國大陸作者的比例也達(dá)到51%。過去兩年,美國在第一作者數(shù)量上均位居第二,不過比例已經(jīng)從2024年的29.6%下降至2025年的14.0%。
以下是本屆ACL中兩篇來自中國大陸的最佳論文的核心內(nèi)容梳理:
一、DeepSeek聯(lián)手北大:新型稀疏注意力機(jī)制,讓模型解碼狂飆11.6倍
北京大學(xué)、DeepSeek和華盛頓大學(xué)聯(lián)合團(tuán)隊(duì)(后簡稱聯(lián)合團(tuán)隊(duì))的獲獎?wù)撐娜麨椤对∈枳⒁饬Γ好嫦蛴布R且可原生訓(xùn)練的稀疏注意力機(jī)制(NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparseAttention)》,曾于今年2月份作為DeepSeek-R1開源的系列技術(shù)報告之一發(fā)布。
什么是稀疏注意力?與傳統(tǒng)注意力機(jī)制相比,稀疏注意力方法能通過選擇性計算關(guān)鍵的查詢鍵對來減少計算開銷。不過,現(xiàn)有許多稀疏注意力方法在實(shí)際推理中未能顯著降低延遲,還無法適應(yīng)現(xiàn)代高效的解碼架構(gòu),也缺乏對訓(xùn)練階段的支持。
聯(lián)合團(tuán)隊(duì)希望解決現(xiàn)有稀疏注意力的兩大問題,一是事后稀疏化導(dǎo)致的性能退化,二是現(xiàn)有稀疏方法在長序列訓(xùn)練的效率短板。
NSA的核心思想是通過動態(tài)分層稀疏策略,結(jié)合粗粒度的token壓縮和細(xì)粒度的token選擇,保留全局上下文感知能力和局部精確性。
在NSA機(jī)制中,模型會同時使用三種不同的注意力方式來處理輸入文本,每種方式都有它自己的擅長領(lǐng)域:
(1)壓縮注意力
這個分支把輸入的信息聚合成塊,捕捉粗粒度的語義信息,也就是對輸入內(nèi)容的關(guān)鍵信息進(jìn)行總結(jié)提煉。壓縮注意力可以減少計算的工作量,但會損失細(xì)節(jié)。
(2)選擇性注意力
為了避免壓縮時遺漏重要內(nèi)容,NSA新增了選擇性注意力機(jī)制。這一機(jī)制給每一塊信息打個“重要程度”的分?jǐn)?shù),并選擇最關(guān)鍵的信息進(jìn)行更細(xì)致的計算。這樣既能保留關(guān)鍵細(xì)節(jié),又不會讓計算變得太復(fù)雜。
(3)滑動窗口注意力
這個分支負(fù)責(zé)處理文本中臨近的詞之間的關(guān)系。它會在固定大小的窗口內(nèi)計算注意力,比如只看當(dāng)前詞前后的幾個詞,這樣可以更好地理解局部上下文。這個機(jī)制能防止模型太過依賴前兩個機(jī)制,而忽視鄰近詞之間的聯(lián)系。
整體來看,NSA通過這三種注意力機(jī)制互相配合,一方面節(jié)省計算資源,一方面又能兼顧全局語義和關(guān)鍵細(xì)節(jié)。
▲NSA架構(gòu)概覽
為測試NSA機(jī)制的實(shí)際效果,聯(lián)合團(tuán)隊(duì)在同一模型的基礎(chǔ)上,分別使用了不同的注意力機(jī)制,比如傳統(tǒng)的全注意力機(jī)制、NSA機(jī)制等,并在多個測試任務(wù)上進(jìn)行比較。
使用NSA機(jī)制的模型在9個測試中獲得了7項(xiàng)最佳成績,整體表現(xiàn)超過了其它所有方法,包括全注意力。尤其是在邏輯推理、問答等任務(wù)上,采用NSA機(jī)制的模型表現(xiàn)較好,這說明它能排除掉不重要的信息,把注意力集中在真正關(guān)鍵的部分。
除了質(zhì)量方面的提升,NSA還帶來效率方面的優(yōu)勢。聯(lián)合團(tuán)隊(duì)在8張A100顯卡上做了測試,他們發(fā)現(xiàn):
(1)在64k長度的文本輸入下,NSA的前向計算速度是全注意力的9倍;
(2)反向計算速度是全注意力的6倍;
(3)在解碼時,NSA將速度提升至原有的11.6倍。
這些提速的關(guān)鍵在于NSA對硬件更友好,比如,其內(nèi)存訪問是按“塊”來走的,最大化了張量核心的利用率,而且內(nèi)部調(diào)度機(jī)制減少了不必要的計算負(fù)擔(dān)。
二、北大-靈初智能團(tuán)隊(duì):探索模型對齊困境,“彈性”機(jī)制或成開源模型隱憂
北大-靈初智能聯(lián)合實(shí)驗(yàn)室首席科學(xué)家楊耀東博士團(tuán)隊(duì)(后簡稱該團(tuán)隊(duì))的獲獎?wù)撐娜麨椤墩Z言模型抗拒對齊:來自數(shù)據(jù)壓縮的證據(jù)(LanguageModelsResistAlignment:EvidenceFromDataCompression)》。這一研究揭示了一個關(guān)鍵問題:大語言模型在對齊時其實(shí)會反抗。
該團(tuán)隊(duì)發(fā)現(xiàn),盡管我們可以通過各類對齊方式讓模型變得更“安全”、更“符合人類價值觀”,模型本身其實(shí)傾向于回到它原來預(yù)訓(xùn)練時學(xué)到的原始分布。就像一個彈簧被拉伸后又想回到原始狀態(tài),這種行為被稱為“彈性”。
這種彈性體現(xiàn)在兩個方面:
(1)抵抗(Resistance):模型不太愿意改變自己,仍然保留原來的分布特征;
(2)反彈(Rebound):對模型對齊越深,它反彈回原始狀態(tài)的速度反而越快——如果用反方向訓(xùn)練(比如取消之前的對齊過程),它很快就會打回原形。
研究還發(fā)現(xiàn),這種行為可以用壓縮率變化來衡量——也就是說,模型對不同數(shù)據(jù)集的學(xué)習(xí)壓縮程度變化,與數(shù)據(jù)量大小成反比。
為了進(jìn)一步解釋這種行為,該團(tuán)隊(duì)構(gòu)建了一個理論模型:語言模型訓(xùn)練和對齊過程其實(shí)是一種信息壓縮過程。他們基于“壓縮定理”(compressiontheorem)和“壓縮協(xié)議”(compressionprotocol),從信息論的角度來分析模型為什么會產(chǎn)生“彈性”——這為理解為什么對齊不穩(wěn)定提供了數(shù)學(xué)框架。
最后,該團(tuán)隊(duì)通過一系列實(shí)驗(yàn),驗(yàn)證了這一現(xiàn)象在不同的大模型中都存在。這說明“彈性”并不是個別模型的特例,而是語言模型訓(xùn)練過程中一種普遍的內(nèi)在機(jī)制。
因此,要想實(shí)現(xiàn)真正穩(wěn)固的對齊,不能只停留在表層的微調(diào),而必須深入理解并對抗這種由壓縮機(jī)制引發(fā)的反對齊傾向。
該團(tuán)隊(duì)還基于模型彈性機(jī)制,提出了對開源策略的思考。
一方面,開源模型權(quán)重有助于研究者快速發(fā)現(xiàn)漏洞、推動大規(guī)模對齊與安全研究;另一方面,模型彈性也意味著,即便是通過審計和安全微調(diào)的模型,如果被公開,一旦出現(xiàn)更先進(jìn)的反對齊手段,這些模型也可能很容易被重置到未對齊狀態(tài),大大降低模型“越獄”的門檻,破壞原有的安全機(jī)制,帶來現(xiàn)實(shí)風(fēng)險。
結(jié)語:華人AI研究者集體崛起,安全成為ACL熱點(diǎn)議題
除了中國大陸團(tuán)隊(duì)在最佳論文獎上的杰出表現(xiàn),ACL2025還見證了華人AI研究者的集體崛起。
本屆ACL評選出26篇杰出論文,這是重要性僅次于最佳論文的獎項(xiàng)。這26篇論文中,有13篇論文的第一作者為華人,占比達(dá)50%。這也顯示出,華人AI研究者在全球范圍內(nèi)的學(xué)術(shù)影響力,正不斷擴(kuò)大。
值得一提是,ACL的獲獎?wù)撐闹?,有大量以AI安全、監(jiān)督、對齊等為主題,學(xué)術(shù)界對這些重要議題的關(guān)注,給產(chǎn)業(yè)界的AI研究提供了極為有益的補(bǔ)充。