機器之心報道
機器之心編輯部
在這屆ACL大會上,華人團隊收獲頗豐。
ACL是計算語言學(xué)和自然語言處理領(lǐng)域的頂級國際會議,由國際計算語言學(xué)協(xié)會組織,每年舉辦一次。一直以來,ACL在NLP領(lǐng)域的學(xué)術(shù)影響力都位列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第63屆,于2025年7月27日至8月1日在奧地利維也納舉行。
今年總投稿數(shù)創(chuàng)歷史之最,高達8000多篇(去年為4407篇),分為主會論文和Findings,二者的接收率分別為20.3%和16.7%。
根據(jù)官方數(shù)據(jù)分析,在所有論文的第一作者中,超過半數(shù)作者來自中國(51.3%),而去年不到三成(30.6%)。緊隨中國,美國作者的數(shù)量排名第二,但只占14.0%。
今年共評選出4篇最佳論文,2篇最佳社會影響力論文、3篇最佳資源論文、3篇最佳主題論文、26篇杰出論文,2篇TACL最佳論文、1篇最佳Demo論文以及47篇SACHighlights。
以下是具體的獲獎信息。
最佳論文獎
在本屆4篇最佳論文中,DeepSeek(梁文鋒參與撰寫)團隊以及北大楊耀東團隊摘得了其中的兩篇,另外兩篇則由CISPA亥姆霍茲信息安全中心&TCSResearch&微軟團隊以及斯坦福大學(xué)&CornellTech團隊獲得。
論文1:ATheoryofResponseSamplinginLLMs:PartDescriptiveandPartPrescriptive
作者:SarathSivaprasad,PramodKaushik,SaharAbdelnabi,MarioFritz機構(gòu):CISPA亥姆霍茲信息安全中心、TCSResearch、微軟論文地址:https://arxiv.org/abs/2502.01926
論文摘要:大型語言模型(LLM)在自主決策中的應(yīng)用日益廣泛,它們從廣闊的行動空間中采樣選項。然而,指導(dǎo)這一采樣過程的啟發(fā)式方法仍未得到充分探索。該團隊研究了這種采樣行為,并表明其底層啟發(fā)式方法與人類決策的啟發(fā)式方法相似:由概念的描述性成分(反映統(tǒng)計常態(tài))和規(guī)范性成分(LLM中編碼的隱含理想值)組成。
該團隊表明,樣本偏離統(tǒng)計常態(tài)向規(guī)范性成分的偏差,在公共衛(wèi)生、經(jīng)濟趨勢等各種現(xiàn)實世界領(lǐng)域的概念中始終存在。為了進一步闡明這一理論,該團隊證明LLM中的概念原型會受到規(guī)范性規(guī)范的影響,類似于人類的「正?!垢拍睢?/p>
通過案例研究和與人類研究的比較,該團隊表明在現(xiàn)實世界的應(yīng)用中,LLM輸出中樣本向理想值的偏移可能導(dǎo)致決策出現(xiàn)顯著偏差,從而引發(fā)倫理擔(dān)憂。
論文2:FairnessthroughDifferenceAwareness:MeasuringDesiredGroupDiscriminationinLLMs
作者:AngelinaWang,MichellePhan,DanielE.Ho,SanmiKoyejo機構(gòu):斯坦福大學(xué)、CornellTech論文地址:https://arxiv.org/abs/2502.01926
論文摘要:算法公平性傳統(tǒng)上采用了種族色盲(即無差異對待)這種數(shù)學(xué)上方便的視角。然而,該團隊認為,在一系列重要的情境中,群體差異意識至關(guān)重要。例如,在法律語境和危害評估中,區(qū)分不同群體可能是必要的。因此,與大多數(shù)公平性研究不同,我們通過區(qū)別對待人們的視角來研究公平性——在合適的情境下。
該團隊首先引入了描述性(基于事實)、規(guī)范性(基于價值觀)和相關(guān)性(基于關(guān)聯(lián))基準(zhǔn)之間的重要區(qū)別。這一區(qū)別至關(guān)重要,因為每個類別都需要根據(jù)其具體特征進行單獨的解釋和緩解。
然后,他們提出了一個由八個不同場景組成的基準(zhǔn)套件,總共包含16,000個問題,使我們能夠評估差異意識。
最后,該研究展示了十個模型的結(jié)果,這些結(jié)果表明差異意識是公平的一個獨特維度,現(xiàn)有的偏見緩解策略可能會適得其反。
論文3:LanguageModelsResistAlignment:EvidenceFromDataCompression
論文地址:https://aclanthology.org/2025.acl-long.1141.pdf項目地址:https://pku-lm-resist-alignment.github.io
該論文首次從理論與實驗層面系統(tǒng)性揭示:大模型并非可以任意塑造的白紙,其參數(shù)結(jié)構(gòu)中存在一種彈性機制——該機制源自預(yù)訓(xùn)練階段,具備驅(qū)動模型分布回歸的結(jié)構(gòu)性慣性,使得模型在微調(diào)后仍可能彈回預(yù)訓(xùn)練狀態(tài),進而抵抗人類賦予的新指令,導(dǎo)致模型產(chǎn)生抗拒對齊的行為。這意味著對齊的難度遠超預(yù)期,后訓(xùn)練(Post-training)所需的資源與算力可能不僅不能減少,反而需要與預(yù)訓(xùn)練階段相當(dāng),甚至更多。
論文指出:模型規(guī)模越大、預(yù)訓(xùn)練越充分,其彈性越強,對齊時發(fā)生回彈的風(fēng)險也越高。換言之,目前看似有效的對齊方法可能僅停留在表面、淺層,要實現(xiàn)深入模型內(nèi)部機制的穩(wěn)健對齊仍任重道遠。這一發(fā)現(xiàn)對AI安全與對齊提出了嚴峻挑戰(zhàn):模型可能不僅學(xué)不動,甚至可能裝作學(xué)會了,這意味著當(dāng)前LLMs、VLMs及VLAs的預(yù)訓(xùn)練與后訓(xùn)練微調(diào)對齊過程面臨新的難題。
ACL2025審稿人及大會主席高度認可該項研究。一致認為,論文提出「彈性」概念突破性地揭示了大語言模型在對齊過程中的抵抗與回彈機制,為長期困擾該領(lǐng)域的對齊脆弱性問題提供了新的理論視角與堅實基礎(chǔ)。領(lǐng)域主席則進一步指出,論文在壓縮理論、模型擴展性與安全對齊之間搭建起橋梁,不僅實證扎實、理論深入,更具深遠的治理和安全啟發(fā)意義。
論文的(獨立)通訊作者為楊耀東博士,現(xiàn)任北京大學(xué)人工智能研究院研究員、智源學(xué)者(大模型安全負責(zé)人)、北大-靈初智能聯(lián)合實驗室首席科學(xué)家。
論文的第一作者均為楊耀東課題組成員,包括:吉嘉銘,王愷樂,邱天異,陳博遠,周嘉懿。合作者包括智源研究院安全中心研究員戴俊韜博士以及北大計算機學(xué)院劉云淮教授。
論文4:NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparseAttention
作者:JingyangYuan,HuazuoGao,DamaiDai,JunyuLuo,LiangZhao,ZhengyanZhang,ZhendaXie,Y.X.Wei,LeanWang,ZhipingXiao,YuqingWang,ChongRuan,MingZhang,WenfengLiang,WangdingZeng機構(gòu):DeepSeek、北大、華盛頓大學(xué)論文地址:https://arxiv.org/pdf/2502.11089
論文摘要:這篇論文由幻方科技、DeepSeek創(chuàng)始人梁文鋒親自掛名,提出了一種新的注意力機制——NSA。這是一個用于超快長上下文訓(xùn)練和推斷的本地可訓(xùn)練的稀疏注意力機制,并且還具有與硬件對齊的特點。
長上下文建模是下一代大型語言模型(LLM)的關(guān)鍵能力,這一需求源于多樣化的實際應(yīng)用,包括深度推理、倉庫級代碼生成以及多輪自動智能體系統(tǒng)等。
實現(xiàn)高效長上下文建模的自然方法是利用softmax注意力的固有稀疏性,通過選擇性計算關(guān)鍵query-key對,可以顯著減少計算開銷,同時保持性能。最近這一路線的進展包括多種策略:KV緩存淘汰方法、塊狀KV緩存選擇方法以及基于采樣、聚類或哈希的選擇方法。盡管這些策略前景廣闊,現(xiàn)有的稀疏注意力方法在實際部署中往往表現(xiàn)不佳。許多方法未能實現(xiàn)與其理論增益相媲美的加速;此外,大多數(shù)方法主要關(guān)注推理階段,缺乏有效的訓(xùn)練時支持以充分利用注意力的稀疏模式。
為了克服這些限制,部署有效的稀疏注意力必須應(yīng)對兩個關(guān)鍵挑戰(zhàn):硬件對齊的推理加速和訓(xùn)練感知的算法設(shè)計。這些要求對于實際應(yīng)用實現(xiàn)快速長上下文推理或訓(xùn)練至關(guān)重要。在考慮這兩方面時,現(xiàn)有方法仍顯不足。
因此,為了實現(xiàn)更有效和高效的稀疏注意力,DeepSeek提出了一種原生可訓(xùn)練的稀疏注意力架構(gòu)NSA,它集成了分層token建模。
如下圖所示,NSA通過將鍵和值組織成時間塊(temporalblocks)并通過三條注意力路徑處理它們來減少每查詢計算量:壓縮的粗粒度token、選擇性保留的細粒度token以及用于局部上下文信息的滑動窗口。隨后,作者實現(xiàn)了專門的核以最大化其實際效率。
研究通過對現(xiàn)實世界語言語料庫的綜合實驗來評估NSA。在具有260Btoken的27B參數(shù)Transformer骨干上進行預(yù)訓(xùn)練,作者評估了NSA在通用語言評估、長上下文評估和鏈?zhǔn)酵评碓u估中的表現(xiàn)。作者還進一步比較了在A100GPU上內(nèi)核速度與優(yōu)化Triton實現(xiàn)的比較。實驗結(jié)果表明,NSA實現(xiàn)了與FullAttention基線相當(dāng)或更優(yōu)的性能,同時優(yōu)于現(xiàn)有的稀疏注意力方法。
此外,與FullAttention相比,NSA在解碼、前向和后向階段提供了明顯的加速,且加速比隨著序列長度的增加而增加。這些結(jié)果驗證了分層稀疏注意力設(shè)計有效地平衡了模型能力和計算效率。
杰出論文獎
ACL2025共選出了26篇杰出論文,足足占據(jù)了6頁幻燈片:
1、ANewFormulationofZipf'sMeaning-FrequencyLawthroughContextualDiversity.
2、AllThatGlittersisNotNovel:PlagiarisminAlGeneratedResearch.
3、BetweenCircuitsandChomsky:Pre-pretrainingonFormalLanguagesImpartsLinguisticBiases.
4、BeyondN-Grams:RethinkingEvaluationMetricsandStrategiesforMultilingualAbstractiveSummarization
5、BridgingtheLanguageGapsinLargeLanguageModeiswithinference-TimeCross-LingualIntervention.
6、ByteLatentTransformer:PatchesScaleBetterThanTokens.
7、CapabilitySalienceVector:Fine-grainedAlignmentofLossandCapabilitiesforDownstreamTaskScalingLaw.
8、FromRealtoSynthetic:SynthesizingMillionsofDiversifiedandComplicatedUserInstructionswithAttributedGrounding.
9、HALoGEN:FantastictiMHallucinationsandWheretoFindThem,
10、HateDay:InsightsfromaGlobalHateSpeechDatasetRepresentativeofaDayonTwitter.
11、IoT:EmbeddingStandardizationMethodTowardsZeroModalityGap.
12、IndicSynth:ALarge-ScaleMultilingualSyntheticSpeechDatasetforLow-ResourceIndianLanguages.
13、LaTIM:MeasuringLatentToken-to-TokenInteractionsinMambaModels.
14、LlamaSee,LlamaDo:AMechanisticPerspectiveonContextualEntrainmentandDistractioninLLMs.
15、LLMsknowtheirvulnerabilities:UncoverSafetyGapsthroughNaturalDistributionShifts.
16、Mapping1,0o0+LanguageModelsviatheLog-LikelihoodVector.
17、MiniLongBench:TheLow-costLongContextUnderstandingBenchmarkforLargeLanguageModels.
18、PARME:ParallelCorporaforLow-ResourcedMiddleEasternLanguages.
19、PastMeetsPresent:CreatingHistoricalAnalogywithLargeLanguageModels.
20、Pre3:EnablingDeterministicPushdownAutomataforFasterStructuredLLMGeneration.
21、RethinkingtheRoleofPromptingStrategiesinLLMTest-TimeScaling:APerspectiveofProbabilityTheory.
22、RevisitingCompositionalGeneralizationCapabilityofLargeLanguageModelsConsideringInstructionFollowingAbility.
23、TowardAutomaticDiscoveryofaCaninePhoneticAlphabet.
24、TowardstheLawofCapacityGapinDistillingLanguageModels.
25、TuningTrashintoTreasure:AcceleratingInferenceofLargeLanguageModelswithTokenRecycling.
26、Typology-GuidedAdaptationforAfricanNLP.
最佳Demo論文獎
獲獎?wù)撐模篛LMoTrace:TracingLanguageModelOutputsBacktoTrillionsofTrainingTokens
作者:JiachengLiu等機構(gòu):艾倫人工智能研究所等鏈接:https://arxiv.org/pdf/2504.07096簡介:論文提出了OLMOTRACE——首個能夠?qū)崟r將語言模型的輸出追溯回其完整、數(shù)萬億token級別訓(xùn)練數(shù)據(jù)的系統(tǒng)。
最佳主題論文獎
論文1:MaCP:MinimalyetMightyAdaptationviaHierarchicalCosineProjection.
作者:YixianShen,QiBi,Jia-HongHuang,HongyiZhu,AndyD.Pimentel,AnujPathania機構(gòu):阿姆斯特丹大學(xué)鏈接:https://arxiv.org/pdf/2505.23870
簡介:該論文提出了一種新的自適應(yīng)方法MaCP,即簡約而強大的自適應(yīng)余弦投影(MinimalyetMightyadaptiveCosineProjection),該方法在對大型基礎(chǔ)模型進行微調(diào)時,僅需極少的參數(shù)和內(nèi)存,卻能實現(xiàn)卓越的性能。
論文2:Meta-rater:AMulti-dimensionalDataSelectionMethodforPre-trainingLanguageModels
作者:XinlinZhuang、JiahuiPeng、RenMa等機構(gòu):上海人工智能實驗室、華東師范大學(xué)鏈接:https://arxiv.org/pdf/2504.14194
簡介:論文提出用四個維度來衡量數(shù)據(jù)質(zhì)量:專業(yè)性、可讀性、推理深度和整潔度,并進一步提出Meta-rater:一種多維數(shù)據(jù)選擇方法,將上述維度與既有質(zhì)量指標(biāo)通過習(xí)得的最優(yōu)權(quán)重整合。
論文3:SubLlME:SubsetSelectionviaRankCorrelationPredictionforData-EfficientLLMEvaluation
作者:GayathriSaranathan、CongXu等機構(gòu):惠普實驗室等鏈接:https://aclanthology.org/2025.acl-long.1477.pdf
簡介:大型語言模型與自然語言處理數(shù)據(jù)集的迅速擴張,使得進行窮盡式基準(zhǔn)測試在計算上變得不可行。受國際數(shù)學(xué)奧林匹克等高規(guī)格競賽的啟發(fā)——只需少量精心設(shè)計的題目即可區(qū)分頂尖選手——論文提出SubLIME,可在保留排名保真度的同時,將評估成本降低80%至99%。
TACL最佳論文獎
ACL2025頒發(fā)了兩篇TACL最佳論文,分別如下:
論文1:WeaklySupervisedLearningofSemanticParsersforMappingInstructionstoActions.
作者:YoavArtzi、LukeZettlemoyer機構(gòu):華盛頓大學(xué)論文鏈接:https://www.semanticscholar.org/paper/Weakly-Supervised-Learning-of-Semantic-Parsers-for-Artzi-Zettlemoyer/cde902f11b0870c695428d865a35eb819b1d24b7
簡介:語言所處的上下文為學(xué)習(xí)其含義提供了強有力的信號。本文展示了如何在一個具身的CCG語義解析方法中利用這一點,該方法學(xué)習(xí)了一個聯(lián)合的意義與上下文模型,用于解釋并執(zhí)行自然語言指令,并可適用于多種類型的弱監(jiān)督方式。
論文2:ReadingSubtext:EvaluatingLargeLanguageModelsonShortStorySummarizationwithWriters.
作者:MelanieSubbiah,SeanZhang,LydiaB.Chilton、KathleenMcKeown.機構(gòu):哥倫比亞大學(xué)論文鏈接:https://arxiv.org/pdf/2403.01061
簡介:本文評估了當(dāng)前主流的大型語言模型(LLMs)在摘要短篇小說這一具有挑戰(zhàn)性的任務(wù)中的表現(xiàn)。該任務(wù)涉及較長文本,并常常包含微妙的潛臺詞或被打亂的時間線。本文進行了定量與定性分析,對GPT-4、Claude-2.1和LLaMA-2-70B三種模型進行了比較。研究發(fā)現(xiàn),這三種模型在超過50%的摘要中都出現(xiàn)了事實性錯誤,并在處理細節(jié)性內(nèi)容和復(fù)雜潛臺詞的理解方面存在困難。
時間檢驗獎
今年,ACL宣布了兩個時間檢驗獎:25-YearToTAward(2000)和10-YearToTAward(2015),即二十五年時間檢驗獎和十年時間檢驗獎。
二十五年時間檢驗獎(來自ACL2000):AutomaticLabelingofSemanticRoles
作者:DanielGildea、DanielJurafsky機構(gòu):加州大學(xué)伯克利分校、科羅拉多大學(xué)地址:https://aclanthology.org/P00-1065.pdf
這篇論文提出了一個系統(tǒng),可用于識別句子成分在語義框架內(nèi)所承擔(dān)的語義關(guān)系或語義角色。該系統(tǒng)可從句法分析樹中提取各種詞匯和句法特征,并利用人工標(biāo)注的訓(xùn)練數(shù)據(jù)來構(gòu)建統(tǒng)計分類器。ACL在官方聲明中稱,這是一篇奠定了語義角色標(biāo)注及其后續(xù)研究的基礎(chǔ)性論文。目前,該論文的被引量為2650。
該論文的兩位作者——DanielGildea現(xiàn)在是美國羅切斯特大學(xué)計算機科學(xué)系的教授;DanielJurafsky是斯坦福大學(xué)語言學(xué)和計算機科學(xué)系教授,也是自然語言處理領(lǐng)域的泰斗級人物,他與JamesH.Martin合著的《語音與語言處理》(SpeechandLanguageProcessing)被翻譯成60多種語言,是全球NLP領(lǐng)域最經(jīng)典的教科書之一。
十年時間檢驗獎(來自EMNLP2015):EffectiveApproachestoAttention-basedNeuralMachineTranslation
作者:Minh-ThangLuong、HieuPham、ChristopherD.Manning機構(gòu):斯坦福大學(xué)計算機科學(xué)系地址:https://aclanthology.org/D15-1166/
這篇論文由大名鼎鼎的ChristopherD.Manning團隊撰寫。ACL官方稱其為有關(guān)神經(jīng)機器翻譯和注意力機制的里程碑之作。
當(dāng)時,注意力機制已經(jīng)被用于改進神經(jīng)機器翻譯,通過在翻譯過程中選擇性地關(guān)注源句子的部分內(nèi)容來提升性能。然而,針對基于注意力的神經(jīng)機器翻譯探索有效架構(gòu)的工作還很少。這篇論文研究了兩類簡單而有效的注意力機制:全局方法——始終關(guān)注所有源詞;局部方法——每次只關(guān)注源詞的一個子集。論文在WMT英德雙向翻譯任務(wù)上驗證了這兩種方法的有效性。使用局部注意力機制,作者在已經(jīng)融合了dropout等已知技術(shù)的非注意力系統(tǒng)基礎(chǔ)上取得了5.0個BLEU分數(shù)點的顯著提升。他們使用不同注意力架構(gòu)的集成模型在WMT'15英譯德翻譯任務(wù)上取得了新的SOTA結(jié)果,達到25.9BLEU分數(shù),比當(dāng)時基于神經(jīng)機器翻譯和n-gram重排序器的最佳系統(tǒng)提升了1.0個BLEU分數(shù)點。
這篇論文提出的全局注意力和局部注意力簡化了Bahdanau的復(fù)雜結(jié)構(gòu),引入了「點積注意力」計算方式,為后續(xù)Q/K/V的點積相似度計算奠定了基礎(chǔ)。
目前,該論文的被引量已經(jīng)超過1萬。論文一作Minh-ThangLuong博士畢業(yè)于斯坦福大學(xué),師從斯坦福大學(xué)教授ChristopherManning,現(xiàn)在是谷歌的研究科學(xué)家。
論文二作HieuPham則目前就職于xAI;之前還在AugmentCode和GoogleBrain工作過。
至于最后的Manning教授更是無需過多介紹了,這位引用量已經(jīng)超過29萬的學(xué)術(shù)巨擘為NLP和AI領(lǐng)域做出了非常多開創(chuàng)性和奠基性工作,同時還在教育和人才培養(yǎng)方面出了巨大貢獻。
順帶一提,Manning教授參與的論文《GloVe:GlobalVectorsforWordRepresentation》也曾獲得ACL2024十年時間檢驗獎;另一篇論文《RecursiveDeepModelsforSemanticCompositionalityOveraSentimentTreebank》也獲得了ACL2023十年時間檢驗獎。因此,這是Manning教授連續(xù)第三年喜提ACL十年時間檢驗獎。
終身成就獎
本年度ACL終身成就獎的獲得者是KathyMcKeown教授。
ACL官方推文寫道:「43年來,她在自然語言處理領(lǐng)域進行了杰出、富有創(chuàng)意且成果豐碩的研究,研究領(lǐng)域涵蓋自然語言生成、摘要和社交媒體分析?!筂cKeown教授不僅奠定了NLP的基礎(chǔ),還通過她的遠見卓識、領(lǐng)導(dǎo)力和指導(dǎo)精神激勵了一代又一代的研究者。
目前,McKeown是哥倫比亞大學(xué)計算機科學(xué)HenryandGertrudeRothschild教授。她也是哥倫比亞大學(xué)數(shù)據(jù)科學(xué)研究所的創(chuàng)始主任,并于2012年7月至2017年6月?lián)卧撗芯克L。
1998年至2003年,她曾擔(dān)任工程與應(yīng)用科學(xué)學(xué)院系主任,之后還擔(dān)任了兩年科研副院長。
McKeown于1982年獲得賓夕法尼亞大學(xué)計算機科學(xué)博士學(xué)位,此后一直在哥倫比亞大學(xué)任教。她的研究興趣包括文本摘要、自然語言生成、多媒體解釋、問答和多語言應(yīng)用。
據(jù)谷歌學(xué)術(shù)統(tǒng)計,McKeown教授目前的論文總引用量已經(jīng)超過3.3萬。
杰出服務(wù)獎
ACL2025還頒發(fā)了一個杰出服務(wù)獎(DistinguishedServiceAward),旨在表彰對計算語言學(xué)界做出杰出且持續(xù)貢獻的人。
今年的獲獎?wù)呤歉鐐惐葋喆髮W(xué)計算機科學(xué)教授JuliaB.Hirschberg。
ACL官方寫道:「35年來,她一直致力于服務(wù)ACL及其相關(guān)期刊《計算語言學(xué)(ComputationalLinguistics)》(包括擔(dān)任《計算語言學(xué)》主編,并于1993年至2003年擔(dān)任ACL執(zhí)行委員會委員),同時也為自然語言處理和語音處理領(lǐng)域做出了卓越貢獻。
對于DeepseekNSA論文獲獎,你怎么看?歡迎評論交流。
九部高品質(zhì)的連載小說,劇情質(zhì)量都有保證,你想要的情節(jié)都有!
小說:劉備重生徐州年,兄弟再聚誓改寫命運,霸業(yè)啟程!
重生三國,從并州狼開始,改寫亂世風(fēng)云,與曹操、劉備共舞!