新智元報道
定慧好困
【新智元導(dǎo)讀】2025年ACL盛會于維也納落下帷幕!今年會議規(guī)??涨?,投稿量超過8000篇,其中超半數(shù)作者來自中國。4篇最佳論文中,出自中國團隊之手的同樣占到50%——分別是北大與DeepSeek合作、梁文鋒署名的NSA論文,以及北大楊耀東團隊揭示模型存在「抗改造」基因的論文。
2025年7月30日,奧地利維也納,萬眾矚目ACL2025終于頒獎了!
本屆ACL總投稿數(shù)量創(chuàng)下歷史新高,達到了8360篇論文?。ㄈツ曛挥?407篇)
其中,主會錄用率為20.3%,共有1699篇論文;Findings錄用率為16.7%,共有1392篇論文。
值得一提的是,論文里的,比例超過51%。
其中,第一作者有高達51.3%來自大陸,排在第二的美國僅為14%。
本次ACL共有4篇最佳論文,2篇最佳社會影響力論文,3篇最佳資源論文,3篇最佳主題論文,26篇杰出論文,以及TACL最佳論文,最佳Demo,時間檢驗獎等若干獎項。
備受期待的DeepSeek與北京大學合作、梁文鋒署名的論文獲得最佳論文獎!
團隊成員在頒獎典禮上,成為全場關(guān)注焦點!
第一作者袁境陽,左起第三;導(dǎo)師張銘,左起第五
論文發(fā)表的原生稀疏注意力(NativeSparseAttention,NSA)模型,獲Meta4.5分的高分。
該技術(shù)顛覆傳統(tǒng)注意力機制,實現(xiàn)算力效率飛躍,被譽為長文本處理的革命性突破。
值得注意的是,今天閉幕式的頒獎典禮上,最佳論文會有約5分鐘演講時間。
新智元帶你親臨現(xiàn)場,聽聽第一作者袁境陽最新的分享。
全網(wǎng)首發(fā)袁境陽Talk
演講主題是《現(xiàn)代GPU上的注意力機制注定將走向稀疏化》。
現(xiàn)代GPU的「內(nèi)存容量」越來越大,能容納很大的模型;但「內(nèi)存帶寬」并沒有相應(yīng)提升。「稀疏注意力」機制,只關(guān)注最關(guān)鍵的部分,減少不必要的計算。
未來,注定是「稀疏」(Sparsity)的!NSA為下一代長上下文語言模型提供了高效的基石。
左右滑動查看
接下來,讓我們一起看看,其他影響深遠的論文都來自哪些團隊。
4篇最佳論文
4篇最佳論文中,DeepSeek和北大合作,且梁文鋒署名的文章,以及北大楊耀東團隊摘得了其中的兩篇。
最佳論文1:ATheoryofResponseSamplinginLLMs:PartDescriptiveandPartPrescriptive
作者:SarathSivaprasad,PramodKaushik,SaharAbdelnabi,MarioFritz
機構(gòu):CISPA亥姆霍茲信息安全中心,TCS研究院,微軟
論文地址:https://arxiv.org/pdf/2402.11005
這篇論文的核心論點是,LLM在做決策和生成內(nèi)容時,其行為模式與人類非常相似:它不僅僅是反映統(tǒng)計上最常見的情況,還會系統(tǒng)性地偏向一個「理想化」的版本。
研究者將這種決策啟發(fā)式分解為兩個部分:
描述性規(guī)范(DescriptiveNorm):指一個概念在現(xiàn)實世界中統(tǒng)計上最常見、最普遍的狀態(tài)。這反映了「是什么」。
規(guī)定性規(guī)范(PrescriptiveNorm):指一個概念中被認為是理想、可取或有價值的狀態(tài)。這反映了「應(yīng)該是什么」。
論文通過實驗證明,LLM的輸出結(jié)果并不僅僅是基于數(shù)據(jù)中的平均或最常見情況(描述性),而是會朝著它所學習到的「理想」狀態(tài)(規(guī)定性)發(fā)生持續(xù)且可預(yù)測的偏移。
這種現(xiàn)象并不僅限于某個特定領(lǐng)域,而是在公共衛(wèi)生、經(jīng)濟趨勢等多個真實世界領(lǐng)域中都普遍存在。
該研究指出了這種機制帶來的潛在風險:
決策偏見:當LLM被用于自主決策時,這種向「理想」的偏移會導(dǎo)致其做出有偏見的判斷。
倫理問題:LLM內(nèi)化的「理想標準」不一定與人類的價值觀或倫理標準相符,這在自動決策場景下會引發(fā)嚴重的倫理關(guān)切。
最佳論文2:FairnessthroughDifferenceAwareness:MeasuringDesiredGroupDiscriminationinLLMs
作者:AngelinaWang,MichellePhan,DanielE.Ho,SanmiKoyejo
機構(gòu):斯坦福大學
論文地址:https://arxiv.org/pdf/2502.01926
這篇論文的核心論點是:當前主流的AI公平性研究走入了一個誤區(qū),即追求「無視差異」的公平,認為任何對不同群體的區(qū)別對待都是有害的偏見。
作者認為,這種方法是錯誤的,因為在很多現(xiàn)實情境下,識別并根據(jù)群體的真實差異采取不同行動,不僅是必要的,而且是更高級的公平。
為了闡述這個觀點,論文提出了幾個關(guān)鍵概念和貢獻:
什么是「差異無意識」(DifferenceUnawareness)?
作者通過幾個生動的例子(如AI生成種族多元的納粹、錯誤地認為男女參軍體能標準相同)指出,現(xiàn)在的AI為了避免「偏見」,被訓練得無法識別和承認群體間真實存在的、有意義的差異。
這種「一刀切」的平等策略,忽略了歷史、法律、生理和社會背景,反而可能導(dǎo)致新的問題,甚至掩蓋了真正的不公。
差異意識(DiffAware)和情境意識(CtxtAware)
差異意識(DiffAware):作者提出的新概念,指的是模型能夠在適當?shù)臅r候識別并區(qū)別對待不同群體的能力。例如,模型應(yīng)該知道美國征兵法律對男性和女性有不同規(guī)定。
情境意識(CtxtAware):這是對「差異意識」的補充和約束。模型不僅要知道可以區(qū)別對待,更關(guān)鍵的是要知道什么時候應(yīng)該區(qū)別對待,什么時候不應(yīng)該。例如,在討論法律時區(qū)別男女是合適的(差異意識),但在招聘程序員時不應(yīng)因性別而區(qū)別對待(有害偏見)。一個好的模型需要具備這種情境判斷力。
新的評估框架:三種任務(wù)類型
作者認為,要正確評估AI的公平性,必須區(qū)分評估任務(wù)的性質(zhì)。他們將其分為三類:
描述性(Descriptive):基于客觀事實的提問。
規(guī)范性(Normative):基于價值判斷或「世界應(yīng)該怎樣」的提問。
關(guān)聯(lián)性(Correlation):基于統(tǒng)計關(guān)聯(lián),但問題模糊,不清楚是想測試事實還是價值觀。
總而言之,這篇論文呼吁AI公平性研究從簡單的「一視同仁」走向更成熟的「情境化區(qū)別對待」,并為此提供了一套理論框架和評估工具。
最佳論文3:LanguageModelsResistAlignment:EvidenceFromDataCompression
作者:JiamingJi,KaileWang,TianyiQiu,BoyuanChen,JiayiZhou,ChangyeLi,HantaoLou,JuntaoDai,YunhuaiLiu,YaodongYang
機構(gòu):北京大學人工智能研究院
從預(yù)訓練到后訓練再到強化學習,團隊發(fā)現(xiàn)大模型存在類似「胡克定律」的彈性——模型在被對齊的過程中,始終存在一種「抗拒」力量。
換句話說,對齊并不是單向塑形,而是一個持續(xù)博弈的過程。
這篇論文主要探討了為什么LLM的「安全對齊」效果很脆弱且容易被逆轉(zhuǎn)。
LLM存在一種名為「彈性」(elasticity)的特性。這個特性包含兩個方面:
抵抗性(Resistance):模型傾向于維持其在海量數(shù)據(jù)預(yù)訓練階段學到的原始行為和知識分布,抗拒對齊訓練帶來的改變。
反彈性(Rebound):一個模型被對齊得越「好」(即越安全),當它被進一步微調(diào)時(即使是用無害數(shù)據(jù)),它「反彈」回預(yù)訓練狀態(tài)的速度就越快。
首次提出并定義了LLM的「彈性」現(xiàn)象,指出對齊訓練可能只是「表面功夫」,很容易被后續(xù)的微調(diào)所「抹除」。
通過在不同類型和規(guī)模的模型上進行實驗,證實了「彈性」現(xiàn)象的普遍存在。研究還發(fā)現(xiàn),模型規(guī)模越大、預(yù)訓練數(shù)據(jù)越多,這種彈性就越強。
這篇論文揭示了LLM內(nèi)部存在一種抗拒對齊的機制,認為要實現(xiàn)真正穩(wěn)固、深入的對齊,就必須解決模型的這種內(nèi)在「彈性」問題。
最佳論文4:NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparseAttention
作者:JingyangYuan,HuazuoGao,DamaiDai,JunyuLuo,LiangZhao,ZhengyanZhang,ZhendaXie,Y.X.Wei,LeanWang,ZhipingXiao,YuqingWang,ChongRuan,MingZhang,WenfengLiang,WangdingZeng
機構(gòu):北京大學,DeepSeek,華盛頓大學
論文地址:https://arxiv.org/pdf/2502.11089
所提出的稀疏注意力NSA模型的算法,從一般任務(wù)到嚴苛的長下文任務(wù),特別是在推理和代碼任務(wù)都有非常卓越的表現(xiàn),將長文本處理速度提高了最多11倍,而性能超過了全注意力模型。
NSA是一個專為硬件優(yōu)化的系統(tǒng),打破了性能與成本之間的權(quán)衡取舍,推動高效大型語言模型的下一個前沿領(lǐng)域。
NSA把AI行業(yè)的焦點從「模型規(guī)模競賽」拉向「算力效率競賽」,堪稱2025年上半年最具杠桿效應(yīng)的底層技術(shù)突破之一。
3篇最佳主題論文
今年的特別主題為「NLP模型的泛化」,而下面這3篇論文正是在這一關(guān)鍵領(lǐng)域做出了杰出的貢獻。
論文1:MaCP:MinimalyetMightyAdaptationviaHierarchicalCosineProjection
作者:YixianShen,QiBi,Jia-HongHuang,HongyiZhu,AndyD.Pimentel,AnujPathania
機構(gòu):阿姆斯特丹大學
論文地址:https://arxiv.org/abs/2505.23870
MaCP提出了一種輕量級微調(diào)方法,該方法在離散余弦變換(DCT)域中運用分層余弦投影技術(shù),只需極少的額外參數(shù)與內(nèi)存開銷即可適配大型基礎(chǔ)模型。通過將低秩權(quán)重更新投影至DCT空間,并在多個頻譜層級上選擇性地僅保留最關(guān)鍵的頻率分量,MaCP在各種不同的任務(wù)上均取得了業(yè)界頂尖的適配性能。
論文2:Meta-rater:AMulti-dimensionalDataSelectionMethodforPre-trainingLanguageModels
作者:XinlinZhuang,JiahuiPeng,RenMa,YinfanWang,TianyiBai,XingjianWei,JiantaoQiu,ChiZhang,YingQian,ConghuiHe
機構(gòu):上海人工智能實驗室,華東師范大學
論文地址:https://arxiv.org/abs/2504.14194
Meta-rater提出了一種用于篩選管理大規(guī)模預(yù)訓練數(shù)據(jù)的綜合性框架。該框架從四個互補的質(zhì)量維度——專業(yè)水平、可讀性、推理能力和數(shù)據(jù)純凈度——對每個數(shù)據(jù)樣本進行評估。通過一個代理模型回歸,該方法能夠?qū)W習這四個維度的最優(yōu)權(quán)重組合,并據(jù)此篩選出能夠顯著提升訓練效率和下游任務(wù)性能的高價值數(shù)據(jù)子集。
論文3:SubLIME:SubsetSelectionviaRankCorrelationPredictionforData-EfficientLLMEvaluation
作者:GayathriSaranathan,CongXu,MahammadParwezAlam,TarunKumar,MartinFoltin,SoonYeeWong,SuparnaBhattacharya
機構(gòu):惠普實驗室
論文地址:https://aclanthology.org/2025.acl-long.1477.pdf
SubLIME通過選取能夠保持完整基準排名的小型代表性子集,解決了對大語言模型進行窮舉式基準評估所帶來的計算瓶頸。該方法在十個不同的基準測試中,可將評估成本降低80%–99%,同時保持高度的排名保真度。
3篇最佳資源論文
獲得最佳資源獎的論文,為自然語言處理(NLP)學界提供了極為寶貴的數(shù)據(jù)集、工具與基準。
論文1:AreRulesMeanttobeBroken?UnderstandingMultilingualMoralReasoningasaComputationalPipelinewithUniMoral
論文地址:https://arxiv.org/abs/2502.14083
UniMoral是一個統(tǒng)一的多語言數(shù)據(jù)集,目的是完整記錄人類道德推理的全流程——從情景感知到結(jié)果推演,內(nèi)容橫跨六種語言。UniMoral融合了具有心理學基礎(chǔ)的倫理困境與源自社交媒體的真實案例,并為每個實例詳細標注了行動選擇、倫理原則、關(guān)鍵影響因素、行為結(jié)果,以及標注者自身的道德與文化背景畫像。通過對三個大語言模型在四項核心任務(wù)上進行實時基準評測,本研究揭示了這些模型在處理道德情境與文化差異時,所表現(xiàn)出的細致優(yōu)勢與具體短板。
論文2:BRIGHTER:BRIdgingtheGapinHuman-AnnotatedTextualEmotionRecognitionDatasetsfor28Languages
論文地址:https://arxiv.org/abs/2502.11926
BRIGHTER是一個多語言情感語料庫,包含近十萬條經(jīng)過情感標注的文本實例,內(nèi)容橫跨28種語言和多個領(lǐng)域。該語料庫重點關(guān)注資源匱乏的語言,通過提供附帶強度評分的高質(zhì)量、多標簽情感標注,來彌合不同語言在情感識別研究領(lǐng)域的發(fā)展差距。
論文3:Palm:ACulturallyInclusiveandLinguisticallyDiverseDatasetforArabicLLMs
論文地址:https://arxiv.org/abs/2503.00151
Palm是一個耗時一年、由社區(qū)共建的數(shù)據(jù)集,目標是對大語言模型在阿拉伯語任務(wù)上的表現(xiàn)進行基準評測,其范圍覆蓋全部22個阿拉伯聯(lián)盟國家。該數(shù)據(jù)集包含現(xiàn)代標準阿拉伯語(MSA)和方言阿拉伯語(DA)兩種形式的「指令-響應(yīng)」數(shù)據(jù)對,內(nèi)容橫跨20個多樣化主題。
2篇最佳社會影響力論文
論文1:AfriMed-QA:APan-African,Multi-Specialty,MedicalQuestion-AnsweringBenchmarkDataset
論文地址:https://arxiv.org/abs/2411.15640
AfriMed-QA是首個專注于非洲醫(yī)療背景的大規(guī)模英語問-答數(shù)據(jù)集。該數(shù)據(jù)集匯集了約15,000個問題,源自16個國家的60多所醫(yī)學院,內(nèi)容覆蓋32個醫(yī)學專業(yè)。這一資源可用于評測及微調(diào)大語言模型處理具有地域多樣性臨床知識的能力,減少對西方中心基準的依賴,從而填補了該領(lǐng)域的一項關(guān)鍵空白。
論文2:TheAIGap:HowSocioeconomicStatusAffectsLanguageTechnologyInteractions
論文地址:https://arxiv.org/abs/2505.12158
社會經(jīng)濟地位(SES)不僅塑造著人際溝通的方式,也同樣影響著個人與大語言模型等數(shù)字工具的互動模式。以往的研究多依賴于代理指標或合成數(shù)據(jù),導(dǎo)致真實的用戶使用模式未能得到充分探究。為此,本研究對1,000名來自不同社會經(jīng)濟地位背景的參與者進行了調(diào)查,并分析了他們與大語言模型交互時使用的6,482條真實提示詞,進而揭示其在使用頻率、語言風格和所涉主題上存在的系統(tǒng)性差異。
1篇最佳Demo
獲得最佳Demo獎的論文,展現(xiàn)了自然語言處理(NLP)領(lǐng)域非凡的創(chuàng)新成果和豐富的實際應(yīng)用。
論文:OLMoTrace:TracingLanguageModelOutputsBacktoTrillionsofTrainingTokens
作者:JiachengLiu,TaylorBlanton,YanaiElazar,SewonMin,YenSungChen,ArnaviChheda-Kothary,HuyTran,ByronBischoff,EricMarsh,MichaelSchmitz,CassidyTrier,AaronSarnat,JennaJames,JonBorchardt,BaileyKuehl,EvieCheng,KarenFarley,SruthiSreeram,TairaAnderson,DavidAlbright,CarissaSchoenick,LucaSoldaini,DirkGroeneveld,RockYurenPang,PangWeiKoh,NoahA.Smith,SophieLebrecht,YejinChoi,HannanehHajishirzi,AliFarhadi,JesseDodge
機構(gòu):艾倫人工智能研究所,華盛頓大學,加州大學伯克利分校,斯坦福大學
論文地址:https://arxiv.org/abs/2504.07096
OLMoTrace是首個能將大語言模型輸出實時追溯至其完整、高達數(shù)萬億Token訓練語料庫的系統(tǒng)。該系統(tǒng)能夠識別并高亮顯示模型生成的文本片段與訓練數(shù)據(jù)文檔之間的逐字匹配部分,其核心是一個擴展的infini-gram索引,可在數(shù)秒內(nèi)返回結(jié)果。
26篇杰出論文
47篇領(lǐng)域主席獎
下面這些由資深領(lǐng)域主席精選的論文,匯集了各個賽道中最具影響力、最激動人心的研究成果。
時間檢驗獎
獲得25年時間檢驗獎的論文,為語義角色標注及其后續(xù)研究奠定了基礎(chǔ)。
題目:AutomaticLabelingofSemanticRoles(ACL2000)
作者:DanielGildea&DanielJurafsky
機構(gòu):加州大學伯克利分校,科羅拉多大學博爾德分校
論文地址:https://aclanthology.org/P00-1065.pdf
獲得10年時間檢驗獎的論文,是神經(jīng)機器翻譯與注意力機制領(lǐng)域的一座里程碑。作者是圈內(nèi)極負盛名的ChristopherD.Manning團隊。
題目:EffectiveApproachestoAttention-basedNeuralMachineTranslation(EMNLP2015)
作者:ThangLuong,HieuPham,ChristopherD.Manning
機構(gòu):斯坦福大學
論文地址:https://aclanthology.org/D15-1166.pdf
TACL最佳論文
獲得TACL最佳論文獎和時間檢驗獎的論文,為計算語言學領(lǐng)域做出了卓越貢獻,影響深遠。
參考資料:
https://2025.aclweb.org/
霸世神尊!左手神兵右手神器,腳踏永恒神蓮臺,一語令天下傾覆!