吳雯蕓
新智元報道
KingHZ桃子
【新智元導(dǎo)讀】LLM真是把審稿人害慘了!NeurIPS2025評審結(jié)果公,全網(wǎng)都被「誰是Adam」爆梗淹沒。更離譜的是,有人的審稿建議中,殘留了AI提示的痕跡。
這幾天,NeurIPS2025的評審結(jié)果,陸續(xù)出爐了!
讓人措不及防的是,「Who'sAdam」明晃晃地出現(xiàn)在了一位作者的審稿建議中,成為近來學(xué)術(shù)圈最大的笑柄。
究竟是大模型不懂,還是審稿人疏忽了?
這么低級的錯誤,讓AI圈內(nèi)人直呼:離了大譜!
網(wǎng)友辣評:審稿人會使用LLM,你就偷著樂吧;如果不使用GPT審稿,他們可能連領(lǐng)域內(nèi)的基本常識都不了解!
「Who'sAdam」依舊在發(fā)酵的同時,NeurIPS還有更離譜的事發(fā)生了。
得克薩斯農(nóng)工大學(xué)計算機系任助理教授涂正中(ZhengzhongTu)稱,自己的審稿建議中,提示詞沒有刪干凈。
不過,研究科學(xué)家DamienTeney表示可能只是復(fù)制錯地方了。
研究LLM遷移學(xué)習(xí)的博士生Dylan也發(fā)現(xiàn)自己提交的論文,可能沒有被認真對待。
審稿人只是讓AI總結(jié)了內(nèi)容,并做了接收與否的決定。
或許,是時候該反思學(xué)術(shù)界的游戲規(guī)則了。
NeurIPS評審爆猛料,全網(wǎng)吵翻了
這屆NeurIPS評審,全網(wǎng)吐槽滿天飛。
近年來,論文評審的質(zhì)量一直在下降。原因主要有兩種:
其一是,論文數(shù)量的增加,大模型加速迭代,協(xié)助研究者、初創(chuàng)公司撰寫論文,產(chǎn)出效率大增。
其次,優(yōu)秀的研究人員更專注于模型開發(fā)和創(chuàng)業(yè),而非論文評審。
正因如此,才鬧出了「Adam是誰」的大笑話。
在AI領(lǐng)域,Adam是深度學(xué)習(xí)中最常見的優(yōu)化方法之一,論文被引次數(shù)高達220991。
對此,著名機器學(xué)習(xí)研究員DanRoy張口大罵,「NeurIPS評審現(xiàn)如今就是垃圾」!
從事AI系統(tǒng)工作的HanchenLi開玩笑:是不是英文名改成Adam,明年就能被NeurIPS引用了?
審稿人告急,還有DDL
另一方面,能夠出現(xiàn)如此荒謬的評審,還與NeurIPS的規(guī)定相關(guān)——
參與審稿的AI研究員必須在截止日期前完成,否則他們自己的論文直接被NeurIPS拒掉。
有的人就是趕在DDL前,匆忙審稿。
由于審稿人手不夠,今年,NeurIPS組委會親自招募更多的審稿人。
紐約大學(xué)助理教授RavidShwartzZiv嘲諷道,「NeurIPS真正的創(chuàng)新之處:領(lǐng)域主席們(AC)在不知不覺中運營著史上最大規(guī)模的LLM基準評測」。
另一位網(wǎng)友吐槽道,這是NeurIPS評審的新低點。
會議審稿質(zhì)量在下降,這大家都知道,但這次NeurIPS評審太離譜了。
VladLialin看到一條神評論:「什么是前向傳播」。他認為如果不解決審稿問題,那NeurIPS論文將毫無可行度,跟無人評審的論文沒什么兩樣。
高級機器學(xué)習(xí)工程師、Keras3合作者AakashKumarNain表示如果不對認真處理類似問題,他以后不會對學(xué)術(shù)會議的質(zhì)量抱有任何希望。
一位亞馬遜工程師挖出了,2015年Hinton和谷歌團隊一篇關(guān)于「蒸餾」技術(shù)被NeurIPS拒收的論文。
而如今,「蒸餾」成為當前最火的訓(xùn)練策略。DistillingtheKnowledgeinaNeuralNetwork這篇被引數(shù)超26000次。
從事多模態(tài)研究的WeijianLuo,在NeurIPS2023上發(fā)表了學(xué)術(shù)生涯中的前4篇論文。
NeurIPS這對他意義重大,但這次的審稿質(zhì)量之低令他沮喪。
他表示是時候認真解決文章評審問題了。
微軟研究員SaharAbdelnabi稱NeurIPS的評審意見充滿敵意、毫無根據(jù)、完全不具建設(shè)性,比用LLM生成評審意見還要糟糕。
她建議NeurIPS學(xué)習(xí)安全會議,加入善意評審指南。
審稿人和作者,雙雙糊弄?
評審結(jié)果不盡人意,你以為只是審稿人的問題嗎?
有的研究人員需要一個亮眼的成績單,利用LLM大量產(chǎn)出論文,何嘗不是一大問題呢?
有審稿人爆料稱,「自己審了5篇論文,體驗簡直糟糕透頂」。
第一篇明顯是LLM生成的。篇幅過短,參考文獻失效,既無實驗也無理論支撐,還充斥大量低級錯誤。越讀越覺得不知所云
有兩篇根本是同一篇論文!有人把相同內(nèi)容改了兩個標題重復(fù)投稿
其中一篇略有新意,但使用了奇怪的數(shù)據(jù)集——后來發(fā)現(xiàn)完全是他們公司內(nèi)部未公開的私有數(shù)據(jù),完全無法復(fù)現(xiàn)結(jié)果
只有最后一篇還算像樣
研究過AI+經(jīng)濟的AffaanMustafa,對學(xué)界發(fā)生到底發(fā)生了什么,非常疑惑。
一方面,為了獲得好評,投稿論文注入了系統(tǒng)提示詞;另一方面,NeurIPS使用系統(tǒng)提示詞來審稿并為論文打分。
這兩端都充滿了AI生成的垃圾內(nèi)容。
Rebuttal最佳指南
不論是什么結(jié)果,評審意見出了之后,下一步就是Rebuttal階段了。
那么,作者們?nèi)绾巫?,能夠為自己贏回更多的勝率呢?
此前,AI初創(chuàng)CEODeviParikh寫過一篇指南,提供了18種技巧,涉及的案例非常豐富,屬于必收藏的系列。
接下來,一起看看都有哪些能實際幫助到的Rebuttal策略吧。
1.逐條列出審稿人意見
用一個順手的電子表格來整理每位審稿人提出的具體評論、問題或疑慮。
將所有內(nèi)容并列一處,有助于我們識別共同關(guān)注點,并避免意外遺漏。請盡快完成這一步,以便及早確定是否需要進行新的實驗(如果會議允許)或分析。
2.集思廣益,羅列可能的回應(yīng)
在表格中為每位作者預(yù)留一列,用于回應(yīng)各審稿人的意見。在此處用草稿形式寫下所有想法,無需顧及文采或篇幅。說服力和簡潔性是通過做減法來實現(xiàn)的。
3.撰寫Rebuttal草稿
將表格中達成的共識,轉(zhuǎn)化為Rebuttal草稿中的具體回應(yīng)。寫作時力求簡潔,但暫時不必擔(dān)心篇幅限制。要覆蓋到每一個要點,刪減和調(diào)整優(yōu)先級可以留到后面處理。
4.審查和修改
重讀最初的審稿意見和你們整理的表格,確保所有問題都得到了回應(yīng)。優(yōu)先處理主要的疑慮,并著手刪改以滿足篇幅要求。
鑒于此,我們必須清楚,是為誰而寫,目標又是什么。
審稿人和領(lǐng)域主席(AC),是最主要的目標。
對于審稿人:澄清疑慮、回答問題、糾正誤解、Rebuttal不準確的評價,并真誠地努力采納反饋、改進你的工作。
對于AC:說服他們你已做出真誠的努力;呈現(xiàn)一份有代表性的審稿意見摘要;幫助他們判斷審稿人的疑慮是否已得到解決;指出不公正的審稿行為;并最終,幫助他們做出決定。
根據(jù)作者的經(jīng)驗,研究界的大多數(shù)新成員只關(guān)注(1),而忽略了(2),下面是一個實操案例:
一定要開門見山。
首先對評審意見進行總結(jié)性概述,重點突出審稿人對個人工作的積極評價。
雖然Rebuttal主要針對需要回應(yīng)的負面意見,但切勿讓評審委員會在審閱過程中忽略研究的優(yōu)勢。
NeurIPS2025評審結(jié)果如何?來評論區(qū)聊聊。
參考資料:
https://x.com/2prime_PKU/status/1948549824594485696
https://x.com/_vztu/status/1948875694122975351
https://x.com/gabriberton/status/1948726822897701065
https://x.com/pratikramesh7/status/1948397645128507573
來源:紅網(wǎng)
作者:別納
編輯:休景彰
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。