新智元報(bào)道
定慧好困
【新智元導(dǎo)讀】2025年ACL盛會(huì)于維也納落下帷幕!今年會(huì)議規(guī)??涨?,投稿量超過(guò)8000篇,其中超半數(shù)作者來(lái)自中國(guó)。4篇最佳論文中,出自中國(guó)團(tuán)隊(duì)之手的同樣占到50%——分別是北大與DeepSeek合作、梁文鋒署名的NSA論文,以及北大楊耀東團(tuán)隊(duì)揭示模型存在「抗改造」基因的論文。
2025年7月30日,奧地利維也納,萬(wàn)眾矚目ACL2025終于頒獎(jiǎng)了!
本屆ACL總投稿數(shù)量創(chuàng)下歷史新高,達(dá)到了8360篇論文!(去年只有4407篇)
其中,主會(huì)錄用率為20.3%,共有1699篇論文;Findings錄用率為16.7%,共有1392篇論文。
值得一提的是,論文里的,比例超過(guò)51%。
其中,第一作者有高達(dá)51.3%來(lái)自大陸,排在第二的美國(guó)僅為14%。
本次ACL共有4篇最佳論文,2篇最佳社會(huì)影響力論文,3篇最佳資源論文,3篇最佳主題論文,26篇杰出論文,以及TACL最佳論文,最佳Demo,時(shí)間檢驗(yàn)獎(jiǎng)等若干獎(jiǎng)項(xiàng)。
備受期待的DeepSeek與北京大學(xué)合作、梁文鋒署名的論文獲得最佳論文獎(jiǎng)!
團(tuán)隊(duì)成員在頒獎(jiǎng)典禮上,成為全場(chǎng)關(guān)注焦點(diǎn)!
第一作者袁境陽(yáng),左起第三;導(dǎo)師張銘,左起第五
論文發(fā)表的原生稀疏注意力(NativeSparseAttention,NSA)模型,獲Meta4.5分的高分。
該技術(shù)顛覆傳統(tǒng)注意力機(jī)制,實(shí)現(xiàn)算力效率飛躍,被譽(yù)為長(zhǎng)文本處理的革命性突破。
值得注意的是,今天閉幕式的頒獎(jiǎng)典禮上,最佳論文會(huì)有約5分鐘演講時(shí)間。
新智元帶你親臨現(xiàn)場(chǎng),聽(tīng)聽(tīng)第一作者袁境陽(yáng)最新的分享。
全網(wǎng)首發(fā)袁境陽(yáng)Talk
演講主題是《現(xiàn)代GPU上的注意力機(jī)制注定將走向稀疏化》。
現(xiàn)代GPU的「內(nèi)存容量」越來(lái)越大,能容納很大的模型;但「內(nèi)存帶寬」并沒(méi)有相應(yīng)提升?!赶∈枳⒁饬Α箼C(jī)制,只關(guān)注最關(guān)鍵的部分,減少不必要的計(jì)算。
未來(lái),注定是「稀疏」(Sparsity)的!NSA為下一代長(zhǎng)上下文語(yǔ)言模型提供了高效的基石。
左右滑動(dòng)查看
接下來(lái),讓我們一起看看,其他影響深遠(yuǎn)的論文都來(lái)自哪些團(tuán)隊(duì)。
4篇最佳論文
4篇最佳論文中,DeepSeek和北大合作,且梁文鋒署名的文章,以及北大楊耀東團(tuán)隊(duì)摘得了其中的兩篇。
最佳論文1:ATheoryofResponseSamplinginLLMs:PartDescriptiveandPartPrescriptive
作者:SarathSivaprasad,PramodKaushik,SaharAbdelnabi,MarioFritz
機(jī)構(gòu):CISPA亥姆霍茲信息安全中心,TCS研究院,微軟
論文地址:https://arxiv.org/pdf/2402.11005
這篇論文的核心論點(diǎn)是,LLM在做決策和生成內(nèi)容時(shí),其行為模式與人類非常相似:它不僅僅是反映統(tǒng)計(jì)上最常見(jiàn)的情況,還會(huì)系統(tǒng)性地偏向一個(gè)「理想化」的版本。
研究者將這種決策啟發(fā)式分解為兩個(gè)部分:
描述性規(guī)范(DescriptiveNorm):指一個(gè)概念在現(xiàn)實(shí)世界中統(tǒng)計(jì)上最常見(jiàn)、最普遍的狀態(tài)。這反映了「是什么」。
規(guī)定性規(guī)范(PrescriptiveNorm):指一個(gè)概念中被認(rèn)為是理想、可取或有價(jià)值的狀態(tài)。這反映了「應(yīng)該是什么」。
論文通過(guò)實(shí)驗(yàn)證明,LLM的輸出結(jié)果并不僅僅是基于數(shù)據(jù)中的平均或最常見(jiàn)情況(描述性),而是會(huì)朝著它所學(xué)習(xí)到的「理想」?fàn)顟B(tài)(規(guī)定性)發(fā)生持續(xù)且可預(yù)測(cè)的偏移。
這種現(xiàn)象并不僅限于某個(gè)特定領(lǐng)域,而是在公共衛(wèi)生、經(jīng)濟(jì)趨勢(shì)等多個(gè)真實(shí)世界領(lǐng)域中都普遍存在。
該研究指出了這種機(jī)制帶來(lái)的潛在風(fēng)險(xiǎn):
決策偏見(jiàn):當(dāng)LLM被用于自主決策時(shí),這種向「理想」的偏移會(huì)導(dǎo)致其做出有偏見(jiàn)的判斷。
倫理問(wèn)題:LLM內(nèi)化的「理想標(biāo)準(zhǔn)」不一定與人類的價(jià)值觀或倫理標(biāo)準(zhǔn)相符,這在自動(dòng)決策場(chǎng)景下會(huì)引發(fā)嚴(yán)重的倫理關(guān)切。
最佳論文2:FairnessthroughDifferenceAwareness:MeasuringDesiredGroupDiscriminationinLLMs
作者:AngelinaWang,MichellePhan,DanielE.Ho,SanmiKoyejo
機(jī)構(gòu):斯坦福大學(xué)
論文地址:https://arxiv.org/pdf/2502.01926
這篇論文的核心論點(diǎn)是:當(dāng)前主流的AI公平性研究走入了一個(gè)誤區(qū),即追求「無(wú)視差異」的公平,認(rèn)為任何對(duì)不同群體的區(qū)別對(duì)待都是有害的偏見(jiàn)。
作者認(rèn)為,這種方法是錯(cuò)誤的,因?yàn)樵诤芏喱F(xiàn)實(shí)情境下,識(shí)別并根據(jù)群體的真實(shí)差異采取不同行動(dòng),不僅是必要的,而且是更高級(jí)的公平。
為了闡述這個(gè)觀點(diǎn),論文提出了幾個(gè)關(guān)鍵概念和貢獻(xiàn):
什么是「差異無(wú)意識(shí)」(DifferenceUnawareness)?
作者通過(guò)幾個(gè)生動(dòng)的例子(如AI生成種族多元的納粹、錯(cuò)誤地認(rèn)為男女參軍體能標(biāo)準(zhǔn)相同)指出,現(xiàn)在的AI為了避免「偏見(jiàn)」,被訓(xùn)練得無(wú)法識(shí)別和承認(rèn)群體間真實(shí)存在的、有意義的差異。
這種「一刀切」的平等策略,忽略了歷史、法律、生理和社會(huì)背景,反而可能導(dǎo)致新的問(wèn)題,甚至掩蓋了真正的不公。
差異意識(shí)(DiffAware)和情境意識(shí)(CtxtAware)
差異意識(shí)(DiffAware):作者提出的新概念,指的是模型能夠在適當(dāng)?shù)臅r(shí)候識(shí)別并區(qū)別對(duì)待不同群體的能力。例如,模型應(yīng)該知道美國(guó)征兵法律對(duì)男性和女性有不同規(guī)定。
情境意識(shí)(CtxtAware):這是對(duì)「差異意識(shí)」的補(bǔ)充和約束。模型不僅要知道可以區(qū)別對(duì)待,更關(guān)鍵的是要知道什么時(shí)候應(yīng)該區(qū)別對(duì)待,什么時(shí)候不應(yīng)該。例如,在討論法律時(shí)區(qū)別男女是合適的(差異意識(shí)),但在招聘程序員時(shí)不應(yīng)因性別而區(qū)別對(duì)待(有害偏見(jiàn))。一個(gè)好的模型需要具備這種情境判斷力。
新的評(píng)估框架:三種任務(wù)類型
作者認(rèn)為,要正確評(píng)估AI的公平性,必須區(qū)分評(píng)估任務(wù)的性質(zhì)。他們將其分為三類:
描述性(Descriptive):基于客觀事實(shí)的提問(wèn)。
規(guī)范性(Normative):基于價(jià)值判斷或「世界應(yīng)該怎樣」的提問(wèn)。
關(guān)聯(lián)性(Correlation):基于統(tǒng)計(jì)關(guān)聯(lián),但問(wèn)題模糊,不清楚是想測(cè)試事實(shí)還是價(jià)值觀。
總而言之,這篇論文呼吁AI公平性研究從簡(jiǎn)單的「一視同仁」走向更成熟的「情境化區(qū)別對(duì)待」,并為此提供了一套理論框架和評(píng)估工具。
最佳論文3:LanguageModelsResistAlignment:EvidenceFromDataCompression
作者:JiamingJi,KaileWang,TianyiQiu,BoyuanChen,JiayiZhou,ChangyeLi,HantaoLou,JuntaoDai,YunhuaiLiu,YaodongYang
機(jī)構(gòu):北京大學(xué)人工智能研究院
從預(yù)訓(xùn)練到后訓(xùn)練再到強(qiáng)化學(xué)習(xí),團(tuán)隊(duì)發(fā)現(xiàn)大模型存在類似「胡克定律」的彈性——模型在被對(duì)齊的過(guò)程中,始終存在一種「抗拒」力量。
換句話說(shuō),對(duì)齊并不是單向塑形,而是一個(gè)持續(xù)博弈的過(guò)程。
這篇論文主要探討了為什么LLM的「安全對(duì)齊」效果很脆弱且容易被逆轉(zhuǎn)。
LLM存在一種名為「彈性」(elasticity)的特性。這個(gè)特性包含兩個(gè)方面:
抵抗性(Resistance):模型傾向于維持其在海量數(shù)據(jù)預(yù)訓(xùn)練階段學(xué)到的原始行為和知識(shí)分布,抗拒對(duì)齊訓(xùn)練帶來(lái)的改變。
反彈性(Rebound):一個(gè)模型被對(duì)齊得越「好」(即越安全),當(dāng)它被進(jìn)一步微調(diào)時(shí)(即使是用無(wú)害數(shù)據(jù)),它「反彈」回預(yù)訓(xùn)練狀態(tài)的速度就越快。
首次提出并定義了LLM的「彈性」現(xiàn)象,指出對(duì)齊訓(xùn)練可能只是「表面功夫」,很容易被后續(xù)的微調(diào)所「抹除」。
通過(guò)在不同類型和規(guī)模的模型上進(jìn)行實(shí)驗(yàn),證實(shí)了「彈性」現(xiàn)象的普遍存在。研究還發(fā)現(xiàn),模型規(guī)模越大、預(yù)訓(xùn)練數(shù)據(jù)越多,這種彈性就越強(qiáng)。
這篇論文揭示了LLM內(nèi)部存在一種抗拒對(duì)齊的機(jī)制,認(rèn)為要實(shí)現(xiàn)真正穩(wěn)固、深入的對(duì)齊,就必須解決模型的這種內(nèi)在「彈性」問(wèn)題。
最佳論文4:NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparseAttention
作者:JingyangYuan,HuazuoGao,DamaiDai,JunyuLuo,LiangZhao,ZhengyanZhang,ZhendaXie,Y.X.Wei,LeanWang,ZhipingXiao,YuqingWang,ChongRuan,MingZhang,WenfengLiang,WangdingZeng
機(jī)構(gòu):北京大學(xué),DeepSeek,華盛頓大學(xué)
論文地址:https://arxiv.org/pdf/2502.11089
所提出的稀疏注意力NSA模型的算法,從一般任務(wù)到嚴(yán)苛的長(zhǎng)下文任務(wù),特別是在推理和代碼任務(wù)都有非常卓越的表現(xiàn),將長(zhǎng)文本處理速度提高了最多11倍,而性能超過(guò)了全注意力模型。
NSA是一個(gè)專為硬件優(yōu)化的系統(tǒng),打破了性能與成本之間的權(quán)衡取舍,推動(dòng)高效大型語(yǔ)言模型的下一個(gè)前沿領(lǐng)域。
NSA把AI行業(yè)的焦點(diǎn)從「模型規(guī)模競(jìng)賽」拉向「算力效率競(jìng)賽」,堪稱2025年上半年最具杠桿效應(yīng)的底層技術(shù)突破之一。
3篇最佳主題論文
今年的特別主題為「NLP模型的泛化」,而下面這3篇論文正是在這一關(guān)鍵領(lǐng)域做出了杰出的貢獻(xiàn)。
論文1:MaCP:MinimalyetMightyAdaptationviaHierarchicalCosineProjection
作者:YixianShen,QiBi,Jia-HongHuang,HongyiZhu,AndyD.Pimentel,AnujPathania
機(jī)構(gòu):阿姆斯特丹大學(xué)
論文地址:https://arxiv.org/abs/2505.23870
MaCP提出了一種輕量級(jí)微調(diào)方法,該方法在離散余弦變換(DCT)域中運(yùn)用分層余弦投影技術(shù),只需極少的額外參數(shù)與內(nèi)存開銷即可適配大型基礎(chǔ)模型。通過(guò)將低秩權(quán)重更新投影至DCT空間,并在多個(gè)頻譜層級(jí)上選擇性地僅保留最關(guān)鍵的頻率分量,MaCP在各種不同的任務(wù)上均取得了業(yè)界頂尖的適配性能。
論文2:Meta-rater:AMulti-dimensionalDataSelectionMethodforPre-trainingLanguageModels
作者:XinlinZhuang,JiahuiPeng,RenMa,YinfanWang,TianyiBai,XingjianWei,JiantaoQiu,ChiZhang,YingQian,ConghuiHe
機(jī)構(gòu):上海人工智能實(shí)驗(yàn)室,華東師范大學(xué)
論文地址:https://arxiv.org/abs/2504.14194
Meta-rater提出了一種用于篩選管理大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)的綜合性框架。該框架從四個(gè)互補(bǔ)的質(zhì)量維度——專業(yè)水平、可讀性、推理能力和數(shù)據(jù)純凈度——對(duì)每個(gè)數(shù)據(jù)樣本進(jìn)行評(píng)估。通過(guò)一個(gè)代理模型回歸,該方法能夠?qū)W習(xí)這四個(gè)維度的最優(yōu)權(quán)重組合,并據(jù)此篩選出能夠顯著提升訓(xùn)練效率和下游任務(wù)性能的高價(jià)值數(shù)據(jù)子集。
論文3:SubLIME:SubsetSelectionviaRankCorrelationPredictionforData-EfficientLLMEvaluation
作者:GayathriSaranathan,CongXu,MahammadParwezAlam,TarunKumar,MartinFoltin,SoonYeeWong,SuparnaBhattacharya
機(jī)構(gòu):惠普實(shí)驗(yàn)室
論文地址:https://aclanthology.org/2025.acl-long.1477.pdf
SubLIME通過(guò)選取能夠保持完整基準(zhǔn)排名的小型代表性子集,解決了對(duì)大語(yǔ)言模型進(jìn)行窮舉式基準(zhǔn)評(píng)估所帶來(lái)的計(jì)算瓶頸。該方法在十個(gè)不同的基準(zhǔn)測(cè)試中,可將評(píng)估成本降低80%–99%,同時(shí)保持高度的排名保真度。
3篇最佳資源論文
獲得最佳資源獎(jiǎng)的論文,為自然語(yǔ)言處理(NLP)學(xué)界提供了極為寶貴的數(shù)據(jù)集、工具與基準(zhǔn)。
論文1:AreRulesMeanttobeBroken?UnderstandingMultilingualMoralReasoningasaComputationalPipelinewithUniMoral
論文地址:https://arxiv.org/abs/2502.14083
UniMoral是一個(gè)統(tǒng)一的多語(yǔ)言數(shù)據(jù)集,目的是完整記錄人類道德推理的全流程——從情景感知到結(jié)果推演,內(nèi)容橫跨六種語(yǔ)言。UniMoral融合了具有心理學(xué)基礎(chǔ)的倫理困境與源自社交媒體的真實(shí)案例,并為每個(gè)實(shí)例詳細(xì)標(biāo)注了行動(dòng)選擇、倫理原則、關(guān)鍵影響因素、行為結(jié)果,以及標(biāo)注者自身的道德與文化背景畫像。通過(guò)對(duì)三個(gè)大語(yǔ)言模型在四項(xiàng)核心任務(wù)上進(jìn)行實(shí)時(shí)基準(zhǔn)評(píng)測(cè),本研究揭示了這些模型在處理道德情境與文化差異時(shí),所表現(xiàn)出的細(xì)致優(yōu)勢(shì)與具體短板。
論文2:BRIGHTER:BRIdgingtheGapinHuman-AnnotatedTextualEmotionRecognitionDatasetsfor28Languages
論文地址:https://arxiv.org/abs/2502.11926
BRIGHTER是一個(gè)多語(yǔ)言情感語(yǔ)料庫(kù),包含近十萬(wàn)條經(jīng)過(guò)情感標(biāo)注的文本實(shí)例,內(nèi)容橫跨28種語(yǔ)言和多個(gè)領(lǐng)域。該語(yǔ)料庫(kù)重點(diǎn)關(guān)注資源匱乏的語(yǔ)言,通過(guò)提供附帶強(qiáng)度評(píng)分的高質(zhì)量、多標(biāo)簽情感標(biāo)注,來(lái)彌合不同語(yǔ)言在情感識(shí)別研究領(lǐng)域的發(fā)展差距。
論文3:Palm:ACulturallyInclusiveandLinguisticallyDiverseDatasetforArabicLLMs
論文地址:https://arxiv.org/abs/2503.00151
Palm是一個(gè)耗時(shí)一年、由社區(qū)共建的數(shù)據(jù)集,目標(biāo)是對(duì)大語(yǔ)言模型在阿拉伯語(yǔ)任務(wù)上的表現(xiàn)進(jìn)行基準(zhǔn)評(píng)測(cè),其范圍覆蓋全部22個(gè)阿拉伯聯(lián)盟國(guó)家。該數(shù)據(jù)集包含現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)(MSA)和方言阿拉伯語(yǔ)(DA)兩種形式的「指令-響應(yīng)」數(shù)據(jù)對(duì),內(nèi)容橫跨20個(gè)多樣化主題。
2篇最佳社會(huì)影響力論文
論文1:AfriMed-QA:APan-African,Multi-Specialty,MedicalQuestion-AnsweringBenchmarkDataset
論文地址:https://arxiv.org/abs/2411.15640
AfriMed-QA是首個(gè)專注于非洲醫(yī)療背景的大規(guī)模英語(yǔ)問(wèn)-答數(shù)據(jù)集。該數(shù)據(jù)集匯集了約15,000個(gè)問(wèn)題,源自16個(gè)國(guó)家的60多所醫(yī)學(xué)院,內(nèi)容覆蓋32個(gè)醫(yī)學(xué)專業(yè)。這一資源可用于評(píng)測(cè)及微調(diào)大語(yǔ)言模型處理具有地域多樣性臨床知識(shí)的能力,減少對(duì)西方中心基準(zhǔn)的依賴,從而填補(bǔ)了該領(lǐng)域的一項(xiàng)關(guān)鍵空白。
論文2:TheAIGap:HowSocioeconomicStatusAffectsLanguageTechnologyInteractions
論文地址:https://arxiv.org/abs/2505.12158
社會(huì)經(jīng)濟(jì)地位(SES)不僅塑造著人際溝通的方式,也同樣影響著個(gè)人與大語(yǔ)言模型等數(shù)字工具的互動(dòng)模式。以往的研究多依賴于代理指標(biāo)或合成數(shù)據(jù),導(dǎo)致真實(shí)的用戶使用模式未能得到充分探究。為此,本研究對(duì)1,000名來(lái)自不同社會(huì)經(jīng)濟(jì)地位背景的參與者進(jìn)行了調(diào)查,并分析了他們與大語(yǔ)言模型交互時(shí)使用的6,482條真實(shí)提示詞,進(jìn)而揭示其在使用頻率、語(yǔ)言風(fēng)格和所涉主題上存在的系統(tǒng)性差異。
1篇最佳Demo
獲得最佳Demo獎(jiǎng)的論文,展現(xiàn)了自然語(yǔ)言處理(NLP)領(lǐng)域非凡的創(chuàng)新成果和豐富的實(shí)際應(yīng)用。
論文:OLMoTrace:TracingLanguageModelOutputsBacktoTrillionsofTrainingTokens
作者:JiachengLiu,TaylorBlanton,YanaiElazar,SewonMin,YenSungChen,ArnaviChheda-Kothary,HuyTran,ByronBischoff,EricMarsh,MichaelSchmitz,CassidyTrier,AaronSarnat,JennaJames,JonBorchardt,BaileyKuehl,EvieCheng,KarenFarley,SruthiSreeram,TairaAnderson,DavidAlbright,CarissaSchoenick,LucaSoldaini,DirkGroeneveld,RockYurenPang,PangWeiKoh,NoahA.Smith,SophieLebrecht,YejinChoi,HannanehHajishirzi,AliFarhadi,JesseDodge
機(jī)構(gòu):艾倫人工智能研究所,華盛頓大學(xué),加州大學(xué)伯克利分校,斯坦福大學(xué)
論文地址:https://arxiv.org/abs/2504.07096
OLMoTrace是首個(gè)能將大語(yǔ)言模型輸出實(shí)時(shí)追溯至其完整、高達(dá)數(shù)萬(wàn)億Token訓(xùn)練語(yǔ)料庫(kù)的系統(tǒng)。該系統(tǒng)能夠識(shí)別并高亮顯示模型生成的文本片段與訓(xùn)練數(shù)據(jù)文檔之間的逐字匹配部分,其核心是一個(gè)擴(kuò)展的infini-gram索引,可在數(shù)秒內(nèi)返回結(jié)果。
26篇杰出論文
47篇領(lǐng)域主席獎(jiǎng)
下面這些由資深領(lǐng)域主席精選的論文,匯集了各個(gè)賽道中最具影響力、最激動(dòng)人心的研究成果。
時(shí)間檢驗(yàn)獎(jiǎng)
獲得25年時(shí)間檢驗(yàn)獎(jiǎng)的論文,為語(yǔ)義角色標(biāo)注及其后續(xù)研究奠定了基礎(chǔ)。
題目:AutomaticLabelingofSemanticRoles(ACL2000)
作者:DanielGildea&DanielJurafsky
機(jī)構(gòu):加州大學(xué)伯克利分校,科羅拉多大學(xué)博爾德分校
論文地址:https://aclanthology.org/P00-1065.pdf
獲得10年時(shí)間檢驗(yàn)獎(jiǎng)的論文,是神經(jīng)機(jī)器翻譯與注意力機(jī)制領(lǐng)域的一座里程碑。作者是圈內(nèi)極負(fù)盛名的ChristopherD.Manning團(tuán)隊(duì)。
題目:EffectiveApproachestoAttention-basedNeuralMachineTranslation(EMNLP2015)
作者:ThangLuong,HieuPham,ChristopherD.Manning
機(jī)構(gòu):斯坦福大學(xué)
論文地址:https://aclanthology.org/D15-1166.pdf
TACL最佳論文
獲得TACL最佳論文獎(jiǎng)和時(shí)間檢驗(yàn)獎(jiǎng)的論文,為計(jì)算語(yǔ)言學(xué)領(lǐng)域做出了卓越貢獻(xiàn),影響深遠(yuǎn)。
參考資料:
https://2025.aclweb.org/
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。