張琬婷
新智元報(bào)道
桃子好困
【新智元導(dǎo)讀】ACL首屆博士論文獎(jiǎng)公布了,UC伯克利助理教授SewonMin摘桂冠!開幕式上,組委會(huì)公開了今年參會(huì)背景,提交論文的中國(guó)作者占全世界一半。ACL,如今成了中國(guó)的頂會(huì)?
ACL2025在維也納開幕了!
今年的ACL,可謂是座無虛席,盛況空前。開幕式上,組委會(huì)公布了今年參會(huì)的具體情況。
值得一提的是,論文里的中國(guó)作者已經(jīng)占據(jù)了半壁江山,比例超過51%。
其中,第一作者有高達(dá)51.3%來自大陸,排在第二的美國(guó)僅為14%。
ACL今年整體情況如下(主會(huì)議部分):
?1,700篇主會(huì)論文,1,400篇Findings論文,108篇產(chǎn)業(yè)論文
?17篇CL(ComputationalLinguistics)論文,40篇TACL(TransactionsofACL)論文
?2場(chǎng)主旨演講,1場(chǎng)專家小組討論
此外,頂會(huì)附屬活動(dòng)還包括:28場(chǎng)workshop(投稿超800篇),8場(chǎng)教程(tutorial),64演示(demo),104篇學(xué)生研究工作(SRW)論文。
同在今天,首屆ACL「計(jì)算語言學(xué)博士論文獎(jiǎng)」正式公布了。
來自UC伯克利EECS助理教授SewonMin,因論文RethinkingDataUseinLargeLanguageModels斬獲大獎(jiǎng)。
7月初,她曾獲得了ACM博士論文獎(jiǎng)榮譽(yù)提名
ACL成了中國(guó)頂會(huì)?
作為NLP領(lǐng)域A類頂會(huì)之一,ACL每年匯聚了世界各地學(xué)者,今年是第63屆年會(huì)。
回看過去十年,ACL總論文提交量增長(zhǎng)了10倍,過去5年增長(zhǎng)了4倍。
今年,頂會(huì)共提交了8360(8350)篇論文,其中主會(huì)錄用率為20.3%,共有1699篇論文。Findings錄用率為16.7%,共有1392篇論文。
相較于去年,論文總提交數(shù)量上漲了70%,審稿人共有5903人,上漲了38%。
更有趣的是,ACL桌拒比率比24年飆升160%。
從提交論文研究的領(lǐng)域來看,NLP應(yīng)用(13.1%)位列第一,資源和評(píng)估占比12.4%,還有多模態(tài)和語言Grounding、語言建模等領(lǐng)域,成為了研究重點(diǎn)。
其他一些數(shù)據(jù)統(tǒng)計(jì):
67%的論文標(biāo)題和摘要中有「LLM」一詞,其中9%提及了GPT,8%提及了Llama,還有2%論文提及了DeepSeek、BERT、Gemini/Gemma。
50位作者提交了超過10篇論文,23%的作者提交了超2篇論文。
250篇論文有超10位作者,僅一位作者論文有20篇。
65%的論文標(biāo)題里都有「:」!
目前,ACL最佳論文獎(jiǎng)暫未公布,今年首次公布了「計(jì)算語言學(xué)博士論文獎(jiǎng)」。
ACL首屆博士論文獎(jiǎng)
這篇獲獎(jiǎng)?wù)撐腞ethinkingDataUseinLargeLanguageModels,于2024年發(fā)表,全文長(zhǎng)達(dá)157頁,是華盛頓大學(xué)SewonMin的博士畢業(yè)論文。
ACL組委會(huì)點(diǎn)評(píng),這篇論文為大模型的行為和能力提供了關(guān)鍵見解,特別是在上下文學(xué)習(xí)方面。
其研究結(jié)果,對(duì)當(dāng)今NLP的核心產(chǎn)生了影響。
論文地址:https://www.sewonmin.com/assets/Sewon_Min_Thesis.pdf
總的來說,這篇研究核心,重點(diǎn)圍繞LLM如何利用訓(xùn)練時(shí)使用的的大量文本語料庫。
首先,作者揭示了這些模型在訓(xùn)練后學(xué)習(xí)新任務(wù)的內(nèi)在機(jī)制——其所謂的上下文學(xué)習(xí)能力幾乎完全取決于從訓(xùn)練數(shù)據(jù)中獲取的知識(shí)。
接著,她又提出了一類新型非參數(shù)化語言模型。
它們將訓(xùn)練數(shù)據(jù)重新定位為可檢索的信息數(shù)據(jù)庫,從而顯著提升準(zhǔn)確性與可更新性。
在此過程中,作者還開發(fā)首批廣泛應(yīng)用的神經(jīng)檢索模型之一,以及將傳統(tǒng)兩階段流程簡(jiǎn)化為單階段的創(chuàng)新方法。
研究表明,非參數(shù)化模型為負(fù)責(zé)任的數(shù)據(jù)使用開辟了新途徑。比如,通過對(duì)授權(quán)文本與受版權(quán)內(nèi)容的分類差異化處理。
最后,SewonMin對(duì)下一代語言模型的發(fā)展方向作出展望,強(qiáng)調(diào)高效Scaling、事實(shí)性增強(qiáng)、去中心化架構(gòu)這三大核心目標(biāo)。
7月初,她的這篇論文,還獲得了ACM博士論文榮譽(yù)提名。在接受ACM采訪中,她首次暢談了選擇LLM領(lǐng)域原因,以及對(duì)當(dāng)前AI領(lǐng)域的一些看法。
以下內(nèi)容,為采訪部分截?。?/p>
Q:你是如何決定將LLM作為研究方向的?
NLP領(lǐng)域的研究者長(zhǎng)期致力于構(gòu)建「通用模型」——無需針對(duì)特定任務(wù)訓(xùn)練就能處理多種任務(wù)。
當(dāng)大語言模型出現(xiàn)時(shí),其技術(shù)路徑是通過海量數(shù)據(jù)的自監(jiān)督訓(xùn)練來構(gòu)建巨型模型,從而消除對(duì)人類監(jiān)督的依賴。
這似乎為實(shí)現(xiàn)該目標(biāo)指明了一條道路。
這個(gè)理念簡(jiǎn)單得令人沮喪,卻揭示了諸多關(guān)鍵要素:數(shù)據(jù)質(zhì)量與規(guī)模的核心作用、對(duì)人類先驗(yàn)知識(shí)的最小化依賴、以及消除人工標(biāo)注環(huán)節(jié)。以上是官方回答。
老實(shí)說,這個(gè)領(lǐng)域聽起來就令人興奮,而且研究過程充滿樂趣。如今該領(lǐng)域能產(chǎn)生如此廣泛而深遠(yuǎn)的影響,我感到非常幸運(yùn)。
Q:你在近期演講中提到,當(dāng)前LLM生成人物傳記時(shí),事實(shí)錯(cuò)誤率高達(dá)42%。為何會(huì)出現(xiàn)這種情況?
我認(rèn)為這與當(dāng)前LLM基于記憶訓(xùn)練數(shù)據(jù)的底層機(jī)制有關(guān)。
對(duì)于知名人士,模型能生成準(zhǔn)確傳記,因?yàn)橄嚓P(guān)高頻出現(xiàn)于訓(xùn)練數(shù)據(jù)中;但對(duì)于曝光不足的對(duì)象,模型往往無法準(zhǔn)確回憶,轉(zhuǎn)而生成看似合理實(shí)則錯(cuò)誤的文本(即幻覺現(xiàn)象)。
這反映了此類模型數(shù)據(jù)學(xué)習(xí)機(jī)制的核心局限。
Q:你在「非參數(shù)化」大語言模型領(lǐng)域取得突破性成果。能否舉例說明非參數(shù)化大語言模型與標(biāo)準(zhǔn)大語言模型在生成響應(yīng)時(shí)的區(qū)別?
標(biāo)準(zhǔn)大語言模型常虛構(gòu)事實(shí)。例如,當(dāng)我詢問無法聯(lián)網(wǎng)的ChatGPT「首爾有哪些米其林三星餐廳」時(shí),它錯(cuò)誤列舉了二星餐廳Gaon和已歇業(yè)的LaYeon,甚至編造營(yíng)業(yè)時(shí)間——這反映出記憶知識(shí)的過時(shí)與缺失。
而非參數(shù)化大語言模型會(huì)從實(shí)時(shí)更新的數(shù)據(jù)存儲(chǔ)中檢索文檔(如2025年提到首爾唯一三星餐廳Mingles的文章),并基于這些文檔給出正確答案。
作者介紹
SewonMin是加州大學(xué)伯克利分校電子工程與計(jì)算機(jī)科學(xué)系的助理教授,同時(shí)也是艾倫人工智能研究所的研究科學(xué)家,并隸屬于伯克利人工智能研究實(shí)驗(yàn)室和伯克利自然語言處理研究組。
她的研究方向是自然語言處理和機(jī)器學(xué)習(xí),特別是在大語言模型領(lǐng)域——致力于深入理解并推動(dòng)模型的發(fā)展,重點(diǎn)研究如何利用海量的文本語料庫。
此前,她在華盛頓大學(xué)獲得計(jì)算機(jī)科學(xué)與工程博士學(xué)位,在首爾大學(xué)獲得計(jì)算機(jī)科學(xué)與工程學(xué)士學(xué)位。曾擔(dān)任MetaFAIR的兼職訪問研究員,并先后在谷歌研究院和Salesforce研究院實(shí)習(xí)。
參考資料:
https://x.com/aclmeeting/status/1949836573144445424https://www.acm.org/articles/people-of-acm/2025/sewon-min
圍棋“死活題”除了大豬嘴,豬豬家的其他成員你都認(rèn)識(shí)么?
答案:題目二:黑先凈活答案:題目三:黑先殺白答案:題目四:黑先殺白答案:題目五:黑先殺白(打劫)答案:1.2.今天的題目是不是有一些難度咯,不要怕,戰(zhàn)勝難題的辦法就是面對(duì)難題,奧利給!點(diǎn)贊+關(guān)注,每天學(xué)習(xí)各種圍棋姿勢(shì)!您也可以評(píng)論區(qū)留言,說出你想看的內(nèi)容和您的疑問,小編會(huì)在第一時(shí)間給您希望你能滿意-。
野狐五段水平,不服來試試?圍棋死活題—每日一題
正解:所謂敵我要點(diǎn),黑1點(diǎn)入正確。白棋的兩種應(yīng)對(duì)方式均無法做活。死活題尋找要點(diǎn)最關(guān)鍵第二題第二題:五虎陷阱(白先)黑角五子彈性十足,白應(yīng)如何攻取?白1扳俗手,以下形成“脹牯牛”,黑棋凈活。正解:白1單托好棋,黑2撲為最強(qiáng)應(yīng)對(duì),白3次序非常關(guān)鍵!5、7以下,白棋通過棄子,局部形成打劫殺。本好了吧!
四道給小學(xué)一年級(jí)小朋友,出的基本圍棋死活題答案
正解圖五還有一種變化,白1長(zhǎng),同樣,黑2點(diǎn)是眼位急所,有此一手,白棋依然無法改變被全滅的結(jié)局|——。結(jié)語:做死活題的基本方法,一是縮?。〝U(kuò)大)眼位法,二是點(diǎn)擊眼形要點(diǎn)。加強(qiáng)基本功,掌握常見型,遇事多思考,實(shí)戰(zhàn)少失誤,相信你也能迅速漲棋-。關(guān)注@墨綠圍棋,分享有價(jià)值的圍棋知識(shí),一起自學(xué)漲棋吧!
來源:紅網(wǎng)
作者:簡(jiǎn)燕貞
編輯:郟燦
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。