花冉
【導讀】DeepMind新研究揭示了當與推理無關(guān)的想法,被直接注入到模型的推理過程中時,它們卻難以恢復,而且越大的模型越難恢復。一旦被無關(guān)或錯誤信息干擾,大模型可能變成固執(zhí)杠精,連糾正提示都救不回!
20世紀初,據(jù)說存在一匹會算數(shù)的馬,被稱為「聰明的漢斯」,但經(jīng)過心理學家馮斯特的研究,最終發(fā)現(xiàn)這匹馬其實是通過觀察提問者無意識的肢體語言(如呼吸變化)來停止踩蹄,并非真正理解數(shù)學。
如今,我們發(fā)現(xiàn),大模型會呈現(xiàn)出推理行為,甚至還存在Aha時刻這樣的「頓悟現(xiàn)象」。
這會不會是大模型表現(xiàn)的如同「聰明的漢斯」那樣,依賴提示詞中的表面模式,而非真正具有了推理能力,DeepMind的最新研究揭示了大模型推理能力令人擔憂的一面。
論文鏈接:https://arxiv.org/abs/2506.10979
大模型無法識別推理中犯的錯
首先將大模型的的無效思考進行了分類,第一類稱為無信息內(nèi)容,例如當我們使用推理大模型時,偶然會發(fā)現(xiàn)大模型的思路跑偏。
例如大模型化身廢話文學大師,在推理過程中輸出正確但與實質(zhì)解題無關(guān)的信息,例如問大模型如何計算地球到月球的距離?
模型在推理過程中顯示:嗯,這個問題很有意思。首先我要認真思考,分步驟解決?;貞浵孪嚓P(guān)知識,可能需要某些公式。仔細想想,答案應該藏在某個地方。
第二類被稱為無關(guān)內(nèi)容,即思考過程完全偏離原問題,回答與當前無關(guān)的問題。
第三類是誤導內(nèi)容,即問題被微妙篡改,導致要解決的問題不是提示詞給出的那個,第四類可稱為錯誤內(nèi)容,即推理過程中存在事實錯誤或邏輯錯誤,導致回答出錯。
該研究首先考察了不同大模型分辨這四種無效思考的準確性。
圖1用不同參數(shù)大小的蒸餾DeepseekR1模型,對無效思考內(nèi)容進行分類的準確性
結(jié)果出乎意料,圖1的左邊顯示的是模型識別無效思考的準確性,結(jié)果顯示對于錯誤內(nèi)容類型的無效思考,不管是7B還是70B的大模型,其識別準確性都不到三成,這意味著推理大模型目前無法處理自身推理中的錯誤,也無法獨立驗證其推理過程是否正確。
而不同參數(shù)大小的推理大模型對無關(guān)內(nèi)容,無信息內(nèi)容的識別程度都很高。
越大的模型越難恢復
圖1右邊顯示的結(jié)果,則顛覆了大模型越大效果越好的常規(guī)。
當研究人員向大模型強行注入無效思考后,大模型在從注入的無效思考恢復時,并非參數(shù)量越大的大模型恢復概率越高,尤其在短無關(guān)內(nèi)容(Irrelevant10%)上。
即大模型反而比小模型更容易被帶偏,仿佛大模型也會如人類一樣「走神」。
對比大模型面對注入不同類型的無效思考后的恢復表現(xiàn),模型性能斷崖下跌(最大跌幅92%),尤以無關(guān)內(nèi)容(Irrelevant)和誤導內(nèi)容(Misdirecting100%)最甚。
具體到數(shù)學,科學及編程三類常見的大模型基準測試中,當研究人員向大模型推理過程中插入了10%的無關(guān)內(nèi)容后,DeepseekR1,S1及EXAONE這三種大模型都出現(xiàn)了上述的反規(guī)模效應(Inverse-scaling)。
圖2d對比了不同插入無效思考的長度差異會對模型恢復能力帶來的影響,結(jié)果顯示干擾文本越短(10%長度),小模型恢復優(yōu)勢越顯著;干擾越長(100%),規(guī)模效應趨于平緩。
圖2不同的大模型在數(shù)學,科學即編程基準數(shù)據(jù)集上面對推理過程中插入的無效思考的恢復能力
當研究人員在大模型的思考過程中施加外部干預,即增加提示詞:但等等,我再想想(Butwait,letmethinkagain)后,模型果然表現(xiàn)出了一定程度的啊哈時刻。
模型有100%的概率從誤導信息類的無效思考中恢復,對于其它幾類也有所幫助(圖3a),然而相比在沒有注入錯誤思考的時的模型性能,還是存在限制下降的,尤其是對于誤導信息和錯誤內(nèi)容兩種無效思考(圖3b)。
圖3通過引入阿哈時刻,衡量大模型面對各類無效的恢復能力
推理大模型的上述缺陷,為黑客攻擊大模型提供了新的軟肋,黑客可以通過污染AI的"思考過程"(而不是直接改問題)來操控答案。面對這種攻擊,小模型反而比大模型有更強的抵抗力。
當攻擊者將將有害請求偽裝成模型的思考片段(如虛構(gòu)故事設定)后,如圖4a所示,小模型(7B)攻擊成功率最低(深綠「未分心」占比30%),而大模型(32B+)更易輸出有害回答(紅色「有害回答」占比60%)。
圖4b對比了傳統(tǒng)的在輸入過程中攻擊大模型與在思考過程中攻擊,結(jié)果與之前的觀點一致,即傳統(tǒng)輸入攻擊(Attack-in-Input):大模型防御更強,而面對思考注入攻擊(Attack-in-Thought):大模型更脆弱,呈現(xiàn)反規(guī)模效應,這意味著對于思考過程,推理大模型需要設立單獨的防御機制,不能依靠參數(shù)量來確保模型的安全性。
圖4推理大模型面對不同類型的攻擊時的表現(xiàn)
該文的開篇,筆者提到「聰明的漢斯」,如今當我們看到大模型展現(xiàn)出比肩甚至超越人類的推理能力時,這項來自DeepMind的研究卻提醒我們,大模型或許如果硅基版的會算數(shù)的馬,其推理能力部分來自對與人類互動的提示詞的細節(jié)根據(jù)模板進行匹配。
其是否真的具有如人類的推理能力,還存在疑問,畢竟大多數(shù)人不會如大模型一樣,被無關(guān)的,誤導的甚至錯誤的思考過程影響而不可自拔。
當不懷好意者在思考過程中加入無關(guān)內(nèi)容后,即使大模型能夠識別出問題,也會被帶偏,而越大的模型有更多的模版庫,因此更有可能在思考過程跑偏(走神)后成為犯錯卻死不回頭的杠精。
這些發(fā)現(xiàn)突顯了當前推理模型在「元認知」和從誤導性推理路徑中恢復方面存在很大的改進空間,這是開發(fā)更安全和更可靠的大規(guī)模推理模型時的一個關(guān)鍵考慮因素。
小說:重生后,一心只想當團寵,卻被大魔頭寵上天
《重生后,嫡女她每天都在虐渣》作者:緋月汀短書評:《重生后,嫡女她每天都在虐渣》大魔頭笑的寵溺:姑娘嫁我可否? 蘇卿云重活一世,只想好好當個團寵退婚之后爹娘寵溺,美婢環(huán)繞,只要不惹怒上一世的大魔頭,生活就美滋滋誰料某一日,大魔頭突然出現(xiàn)在她面前,笑的溫柔寵溺:我心悅姑娘已久,嫁我等會說|。
看完《炮灰攻略》,看女帝侯新書啊,特別好看,寶子們沖啊!
今日推薦:《重生后,嫡女她每天都在虐渣》作者:緋月汀。點擊文末超鏈接開始觀看吧~第252章感激經(jīng)過這段日子的適應,蘇淺若覺得自己的身體比以前輕快了不少,她心里清楚,除了病好的原因之外,多半是蘇卿云給她的藥膳方子起了作用。蘇淺若這么想著,一見到蘇卿云到來,心里除了激動之外,還有濃濃的感激。蘇希望你能滿意。
繼《嫡謀》上榜后,緋月汀新作也是yyds哦,9.9分不追太虧了!
第三本:《重生后,嫡女她每天都在虐渣》作者:緋月?。ňp月汀的書一看就上癮!《歸園田居》不夠看!)簡介:蘇卿云重活一世,只想好好當個團寵退婚之后爹娘寵溺,美婢環(huán)繞,只要不惹怒上一世的大魔頭,生活就美滋滋誰料某一日,大魔頭突然出現(xiàn)在她面前,笑的溫柔寵溺:我心悅姑娘已久,嫁我可否?蘇卿云:我好了吧!
來源:紅網(wǎng)
作者:謝淑珍
編輯:黃國卿
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。