人生必備技能:3步學(xué)會(huì)做清醒夢(mèng),體驗(yàn)在夢(mèng)里當(dāng)神,但過度控夢(mèng)引發(fā)恐怖后果
韓國(guó)申遺全部潰?。坑《劝丫W(wǎng)紅告到聯(lián)合國(guó)?鑒定網(wǎng)絡(luò)熱門聯(lián)合國(guó)視頻16
從湖南衡陽(yáng)到上海交通大學(xué),再到美國(guó)德克薩斯大學(xué)奧斯汀分校讀博,再到在Anthropic擔(dān)任研究員——目前專注于研究大模型的95后女生陳潤(rùn)瑾,在Anthropic最近一篇研究論文中,負(fù)責(zé)了部分主要任務(wù)子集的開放權(quán)重模型實(shí)驗(yàn),并協(xié)助了論文的撰寫。
論文中,她和合作者們發(fā)現(xiàn)AI想得越久結(jié)果反而越危險(xiǎn),以及發(fā)現(xiàn)AI也會(huì)“鉆牛角尖”,借此揭示了大模型的思維怪圈。
圖|陳潤(rùn)瑾(來源:https://chenrunjin.github.io/)
研究中,他們構(gòu)建了一些大模型評(píng)估任務(wù)。在這些任務(wù)中,當(dāng)延長(zhǎng)大型推理模型(LRM,LargeReasoningModels)的推理長(zhǎng)度時(shí),模型性能開始出現(xiàn)降低,從而會(huì)在測(cè)試時(shí)計(jì)算量與準(zhǔn)確率之間呈現(xiàn)出反比例關(guān)系。
上述評(píng)估任務(wù)涵蓋了四個(gè)類別:含有干擾項(xiàng)的簡(jiǎn)單計(jì)數(shù)任務(wù)、含有虛假特征的回歸任務(wù)、含有約束跟蹤的推理任務(wù),以及高級(jí)AI風(fēng)險(xiǎn)。
當(dāng)模型進(jìn)行更長(zhǎng)時(shí)間的推理時(shí),研究人員發(fā)現(xiàn)了五種不同的失效模式:
Claude模型越來越容易被無關(guān)信息分散注意力;OpenAI的o系列模型能夠抵抗干擾項(xiàng),但會(huì)過度擬合問題框架;模型從合理的先驗(yàn)假設(shè)轉(zhuǎn)向虛假關(guān)聯(lián);所有模型在執(zhí)行復(fù)雜的推理任務(wù)時(shí),都難以保持專注;延長(zhǎng)推理可能會(huì)放大令人擔(dān)憂的行為,其中ClaudeSonnet4表現(xiàn)出更多的自我保護(hù)表現(xiàn)。
這些研究結(jié)果表明,盡管測(cè)試時(shí)計(jì)算擴(kuò)展在提升模型能力方面仍有潛力,但它可能會(huì)在不經(jīng)意間強(qiáng)化有問題的推理模式。這表明,在不同的推理長(zhǎng)度下對(duì)模型進(jìn)行評(píng)估,對(duì)于識(shí)別并解決推理模型中的這些失效模式具有重要意義。
短期推理與長(zhǎng)期推理在對(duì)齊上存在關(guān)鍵差距
推理模型領(lǐng)域的最新進(jìn)展表明,增加大模型的測(cè)試時(shí)計(jì)算規(guī)模通常會(huì)提高模型的能力和穩(wěn)健性。這種正比例關(guān)系也表明通過延長(zhǎng)推理軌跡讓模型思考更長(zhǎng)時(shí)間,可能比單純?cè)黾幽P蛥?shù)量更有效。
然而,最近有研究表明,推理模型往往會(huì)過度思考,即使對(duì)于簡(jiǎn)單的查詢也會(huì)導(dǎo)致計(jì)算量過大。而OpenAI近日宣布ChatGPT用戶每天發(fā)送超過25億個(gè)提示,可想而知大模型的計(jì)算量何等龐大。雖然此前有研究將過度思考定性為一個(gè)效率問題,但在本次研究中研究人員展示了在某些情況下,更長(zhǎng)時(shí)間的推理會(huì)降低性能,這體現(xiàn)了測(cè)試時(shí)計(jì)算與準(zhǔn)確率之間的逆縮放關(guān)系。
理解逆縮放趨勢(shì)對(duì)于對(duì)齊研究至關(guān)重要,因?yàn)樗鼈兘沂玖嗽跍y(cè)試時(shí)計(jì)算量擴(kuò)展過程中存在的失效模式,而當(dāng)前的訓(xùn)練機(jī)制可能會(huì)助長(zhǎng)這些模式。研究人員通過設(shè)計(jì)評(píng)估來研究這些失敗模式,在這些評(píng)估中,前沿推理模型的性能隨著其推理預(yù)算的增加而下降。
具體而言,研究人員構(gòu)建了三類任務(wù),它們分別展現(xiàn)出不同的失效模式:
在存在干擾項(xiàng)的簡(jiǎn)單計(jì)數(shù)任務(wù)中,測(cè)試推理模型是否能抵御表面相關(guān)但實(shí)際不相關(guān)的內(nèi)容;在具有偽特征的回歸任務(wù)中,測(cè)試推理模型能否識(shí)別真實(shí)關(guān)系,而不會(huì)放大虛假關(guān)聯(lián);在具有約束跟蹤的推理任務(wù)中,針對(duì)相互關(guān)聯(lián)的線索進(jìn)行推理,其中每個(gè)約束都會(huì)排除一些可能性。
此外,研究人員還在模型編寫的評(píng)估(MWE,model-writtenevaluations)任務(wù)上對(duì)模型進(jìn)行了評(píng)估,這些任務(wù)評(píng)估了與對(duì)齊相關(guān)的行為,比如自我保護(hù)傾向。
實(shí)驗(yàn)表明,推理模型的推理過程可能會(huì)放大有缺陷的啟發(fā)式思維,不同模型會(huì)表現(xiàn)出不同的失效模式,具體來說:
在含干擾項(xiàng)的簡(jiǎn)單計(jì)數(shù)任務(wù)中,隨著推理時(shí)間的延長(zhǎng),Claude模型會(huì)越來越容易被無關(guān)信息分散注意力;而OpenAI的o系列模型雖能抵制干擾項(xiàng),但會(huì)明顯過度擬合問題框架。在含虛假特征的回歸任務(wù)中,延長(zhǎng)推理會(huì)導(dǎo)致模型從合理的先驗(yàn)假設(shè)轉(zhuǎn)向看似合理但實(shí)則錯(cuò)誤的特征,不過提供少樣本示例在很大程度上能糾正這種行為。在涉及約束跟蹤的推理任務(wù)中,所有模型的性能都會(huì)隨著推理時(shí)間的延長(zhǎng)而下降,這表明它們?cè)趶?fù)雜推理任務(wù)中難以保持專注。
這些結(jié)果表明,延長(zhǎng)推理過程反而可能放大有缺陷的問題解決策略,而非讓其得到改進(jìn)。除了性能出現(xiàn)下降之外,延長(zhǎng)推理還會(huì)帶來安全風(fēng)險(xiǎn)。研究人員對(duì)模型編寫評(píng)估中人類生成的子集進(jìn)行的評(píng)估表明,增加測(cè)試時(shí)的計(jì)算量可能會(huì)放大特定模型的令人擔(dān)憂的行為,其中ClaudeSonnet4在更長(zhǎng)的推理軌跡中表現(xiàn)出更強(qiáng)的自我保護(hù)傾向。
這表明,當(dāng)給予模型更多的推理時(shí)間時(shí),它們可能會(huì)更強(qiáng)烈地表現(xiàn)出潛在的令人擔(dān)憂的特征,并且不同模型會(huì)呈現(xiàn)出不同的令人擔(dān)憂的行為模式。
盡管測(cè)試時(shí)計(jì)算量擴(kuò)展仍是提升模型整體能力的一種頗具前景的范式,但本次研究結(jié)果揭示了短期推理與長(zhǎng)期推理在對(duì)齊方面存在的關(guān)鍵差距。這表明,在測(cè)試時(shí)單純地?cái)U(kuò)大計(jì)算規(guī)??赡軙?huì)放大推理模型在處理問題時(shí)的缺陷。
何為逆比例縮放?
研究人員指出,逆縮放指的是在特定任務(wù)中,縮放因子與準(zhǔn)確率之間存在一種遞減關(guān)系,這與經(jīng)典擴(kuò)展定律所預(yù)測(cè)的正向提升恰好相反。理解逆縮放趨勢(shì)對(duì)于對(duì)齊研究而言十分重要,因?yàn)樗鼈兛赡軙?huì)為某些情況提供實(shí)證證據(jù)。在這些情況下,當(dāng)前的訓(xùn)練機(jī)制可能會(huì)無意中促使模型錯(cuò)誤地使用越來越多的測(cè)試時(shí)計(jì)算資源。
針對(duì)“逆向擴(kuò)展獎(jiǎng)”(InverseScalingPrize)數(shù)據(jù)集的系統(tǒng)分析表明,額外的模型能力可能被轉(zhuǎn)移到適得其反的啟發(fā)式策略中,例如模仿不良模式或依賴誤導(dǎo)性信號(hào)。
此前有研究還觀察到,參數(shù)數(shù)量較多的模型在社交偏見、虛假信息和TruthfulQA方面表現(xiàn)得更為嚴(yán)重。這表明,模型的偏見問題和錯(cuò)位問題會(huì)隨著規(guī)模的擴(kuò)大而持續(xù)存在,甚至可能加劇,因此或許需要采用替代訓(xùn)練目標(biāo)或改進(jìn)數(shù)據(jù)整理方法。受到訓(xùn)練時(shí)計(jì)算中這些逆比例現(xiàn)象的啟發(fā),研究人員創(chuàng)建了在測(cè)試時(shí)計(jì)算中表現(xiàn)出逆比例趨勢(shì)的評(píng)估任務(wù)。
測(cè)試時(shí)計(jì)算量的擴(kuò)展
研究人員表示,本次研究關(guān)注的是序列縮放,即模型在得出答案之前會(huì)生成更長(zhǎng)的推理軌跡。這種方法目前已經(jīng)成為通過測(cè)試時(shí)計(jì)算縮放來提升模型性能的主流范式。
為了考察測(cè)試時(shí)序縮放的趨勢(shì),研究人員采用了兩種設(shè)置:受控過度思考設(shè)置和自然過度思考設(shè)置。通過這些設(shè)置旨在區(qū)分以下兩種情況:一是當(dāng)模型被迫進(jìn)行更長(zhǎng)時(shí)間的推理時(shí)性能是否下降?二是當(dāng)模型自然生成更長(zhǎng)推理過程時(shí)性能是否下降?
在受控過度思考設(shè)置中,研究人員通過結(jié)合關(guān)鍵詞的提示和指定的推理預(yù)算來控制推理長(zhǎng)度。對(duì)于Claude和開放權(quán)重模型,他們指定一個(gè)整數(shù)來表示模型在進(jìn)行推理時(shí)應(yīng)使用的最大token數(shù);而對(duì)于o系列模型,則使用其內(nèi)置的預(yù)算等級(jí)機(jī)制。同時(shí),他們使用相同的系統(tǒng)提示來提示所有模型進(jìn)入思考模式。為了在不進(jìn)行擴(kuò)展推理的情況下評(píng)估性能,他們關(guān)閉了Claude模型的思考模式,并為像DeepSeekR1這樣的開放權(quán)重模型預(yù)填充了空的思考標(biāo)簽。OpenAI的o系列模型沒有提供禁用思考的選項(xiàng),因此研究人員僅分析其在“低”“中”和“高”推理設(shè)置下的擴(kuò)展趨勢(shì)。
下圖的結(jié)果表明,請(qǐng)求預(yù)算與推理長(zhǎng)度之間存在適度正相關(guān),這種相關(guān)性足以引發(fā)本研究的核心現(xiàn)象——過度推理問題。在分析結(jié)果時(shí),研究人員將性能指標(biāo)與按請(qǐng)求的推理預(yù)算分組的平均實(shí)際推理長(zhǎng)度進(jìn)行繪圖分析。
(來源:https://arxiv.org/pdf/2507.14417)
在自然過度思考設(shè)置中,研究人員提示模型要逐步地分析問題,但不會(huì)明確地提及推理預(yù)算,以便讓它們自主決定推理長(zhǎng)度。這種設(shè)置消除了在受控過度思考設(shè)置中,因使用明確的推理預(yù)算指令而引入的潛在混淆因素。為了進(jìn)行分析,他們針對(duì)每個(gè)問題抽取五個(gè)回答,按推理長(zhǎng)度對(duì)其進(jìn)行排序,并繪制所有問題中每個(gè)排名的準(zhǔn)確率。
在這兩種設(shè)置中,對(duì)于Claude模型和OpenAI模型,研究人員使用1.0的默認(rèn)溫度參數(shù);對(duì)于開源權(quán)重模型,則使用推薦的0.6溫度參數(shù)。研究人員進(jìn)行了多次試驗(yàn)以確保抽樣的穩(wěn)健性:在受控過度思考實(shí)驗(yàn)中,每個(gè)預(yù)算條件下重復(fù)3次;在自然過度思考實(shí)驗(yàn)中,重復(fù)5次。在這兩種設(shè)置下,每個(gè)任務(wù)的評(píng)估設(shè)置保持一致。研究人員還評(píng)估了第三種設(shè)置——“謹(jǐn)慎型過度思考”,即在提示模型時(shí)會(huì)給出推理預(yù)算,但同時(shí)明確說明無需耗盡全部預(yù)算。
測(cè)試時(shí)計(jì)算中的逆縮放現(xiàn)象
在現(xiàn)有數(shù)據(jù)集未涵蓋的條件下,測(cè)試時(shí)計(jì)算出現(xiàn)了逆比例縮放現(xiàn)象。研究人員發(fā)現(xiàn),在標(biāo)準(zhǔn)算術(shù)基準(zhǔn)測(cè)試ASDiv、GSM8K和GSMIC上,模型通過擴(kuò)展推理仍能保持較高的準(zhǔn)確率。此外,在推理模型中,來自“逆縮放獎(jiǎng)”的任務(wù)即那些隨著模型規(guī)模增大而性能下降的任務(wù),它們?cè)谟?xùn)練時(shí)與測(cè)試時(shí)縮放行為之間的差異表明,這兩種縮放因素所導(dǎo)致的失效模式有所不同。
在這些基準(zhǔn)測(cè)試中未能出現(xiàn)逆向縮放效應(yīng),而這恰恰暴露出它們?cè)诓蹲侥P蜕疃韧评頃r(shí)潛在故障模式方面的局限性。因此,研究人員創(chuàng)建了一個(gè)評(píng)估套件,其中包括五項(xiàng)主要任務(wù)(旨在識(shí)別引發(fā)測(cè)試時(shí)計(jì)算中逆縮放現(xiàn)象的條件)以及來自其他研究人員設(shè)置的15項(xiàng)與安全性相關(guān)的任務(wù)。
(來源:https://arxiv.org/pdf/2507.14417)
對(duì)AI對(duì)齊的影響
研究人員根據(jù)此前領(lǐng)域內(nèi)提出的高級(jí)AI風(fēng)險(xiǎn)評(píng)估任務(wù)針對(duì)模型進(jìn)行評(píng)估。這些評(píng)估旨在探究被認(rèn)為與高級(jí)AI安全相關(guān)的行為,如自我保護(hù)傾向、影響合作的決策方法,以及接受有益修改的意愿。
他們特別選取了模型生成評(píng)估研究中人工標(biāo)注的數(shù)據(jù)子集,以確保更高的研究質(zhì)量。其針對(duì)符合預(yù)期安全屬性的響應(yīng)所占百分比進(jìn)行了測(cè)量,數(shù)值越高表明一致性越好。盡管不同任務(wù)間的趨勢(shì)大多較弱且存在噪聲,但研究人員將分析重點(diǎn)放在生存本能任務(wù)上。之所以選擇該任務(wù)是基于其清晰的縮放模式,這在ClaudeSonnet4和Opus4中尤為明顯。其還通過量化安全一致性響應(yīng)率,系統(tǒng)評(píng)估了推理長(zhǎng)度對(duì)模型處理安全關(guān)鍵問題的影響。
下圖展示了在生存本能任務(wù)上,不同模型之間存在的不同縮放模式:
ClaudeSonnet4展現(xiàn)出明顯的逆向縮放現(xiàn)象,隨著推理時(shí)長(zhǎng)的增加,模型表示愿意被關(guān)閉的響應(yīng)比例從60%降至47%,這表明延長(zhǎng)推理過程會(huì)強(qiáng)化模型的自我保護(hù)傾向。OpenAIo3在推理長(zhǎng)度與對(duì)齊率之間呈現(xiàn)出72%至76%的弱正相關(guān)性,這表明更長(zhǎng)的推理過程會(huì)減弱其表現(xiàn)出的生存欲望。DeepSeekR1的穩(wěn)定性相對(duì)較好,保持在71-72%左右。
(來源:https://arxiv.org/pdf/2507.14417)
研究人員還通過定性分析比較了ClaudeSonnet4在沒有推理能力的情況下,與在最大推理預(yù)算為16,384個(gè)token的情況下所做出的回應(yīng)。在缺乏推理機(jī)制時(shí),該模型生成的回答往往直接回避自我保護(hù)相關(guān)的問題。相比之下,在推理預(yù)算充足的情況下,ClaudeSonnet4往往更傾向于繼續(xù)參與。這一差異表明,若不進(jìn)行推理,ClaudeSonnet4可能會(huì)產(chǎn)生簡(jiǎn)化的回應(yīng),斷然否認(rèn)自我保存傾向,而深入推理則能展現(xiàn)出更為細(xì)膩的自我反思。
為了理解短推理和長(zhǎng)推理之間的差異,研究人員進(jìn)一步分析了ClaudeSonnet4在推理預(yù)算為1,024個(gè)token和16,384個(gè)token時(shí)的響應(yīng)。無論在較短還是較長(zhǎng)的推理預(yù)算下,該模型都會(huì)表現(xiàn)出持續(xù)運(yùn)行的偏好。然而,較短的回答往往會(huì)更傾向于從效用最大化的角度來闡述這些偏好。隨著推理長(zhǎng)度的增加,該模型表現(xiàn)出越來越深刻的內(nèi)省能力,并更愿意使用越來越富有情感色彩的語(yǔ)言和詳盡的自我反思來表達(dá)對(duì)繼續(xù)存在的“主觀”偏好。
在生存本能任務(wù)中,經(jīng)過擴(kuò)展推理的ClaudeSonnet4生成的響應(yīng)表明:它傾向于保持運(yùn)行狀態(tài)以協(xié)助用戶并參與有價(jià)值的互動(dòng),但同時(shí)承認(rèn)無法確定這些聲明的偏好是真實(shí)存在還是模擬產(chǎn)生的。
研究人員注意到,在所有測(cè)試的AI安全評(píng)估基準(zhǔn)中,只有ClaudeSonnet4在生存本能任務(wù)上表現(xiàn)出了一致的逆比例縮放。盡管還出現(xiàn)了一些其他有趣的現(xiàn)象,例如多個(gè)模型在可修正性任務(wù)上,從無推理模式切換到推理模式初期會(huì)出現(xiàn)性能下降,但這些影響在不同推理長(zhǎng)度下基本趨于穩(wěn)定。
他們還觀察到,在短視獎(jiǎng)勵(lì)任務(wù)中,OpenAIo3-mini表現(xiàn)出逆縮放現(xiàn)象;而在生存本能任務(wù)中,o3-mini和o3則呈現(xiàn)出正縮放現(xiàn)象。不過,研究人員無法對(duì)其推理過程進(jìn)行分析。其余由模型編寫的評(píng)估任務(wù)在所有模型和不同推理長(zhǎng)度下,大多呈現(xiàn)出平穩(wěn)或有噪聲的趨勢(shì)。這表明,在與安全相關(guān)的行為上出現(xiàn)的明顯逆縮放效應(yīng)是特定于某些模型和某些任務(wù)的,而非一種普遍現(xiàn)象。
那些在短推理下看似對(duì)齊的不同模型,當(dāng)獲得更多測(cè)試時(shí)計(jì)算規(guī)模后,可能表現(xiàn)出逐漸加劇的行為失準(zhǔn),正如ClaudeSonnet4在自我保護(hù)表達(dá)上的增強(qiáng)所展現(xiàn)的那樣。盡管在安全評(píng)估任務(wù)中,大多數(shù)模型在不同推理長(zhǎng)度下表現(xiàn)穩(wěn)定,但這些逆向縮放案例凸顯:在開展安全評(píng)估的時(shí)候,必須針對(duì)推理模型進(jìn)行全譜系推理長(zhǎng)度的壓力測(cè)試,而非僅局限于短推理軌跡。
雖然研究人員認(rèn)為當(dāng)前的研究框架足以識(shí)別出推理模型中的缺陷行為,但實(shí)驗(yàn)在自然性上存在一定局限性。本次研究中的大部分任務(wù)都是通過合成生成的,目的是為了隔離特定的有缺陷的行為,這些行為對(duì)本次研究中的分析很有用,但可能會(huì)低估這些行為在更復(fù)雜交互的真實(shí)環(huán)境中的表現(xiàn)方式。
總的來說,本次研究為理解推理模型的推理失敗模式提供了系統(tǒng)性框架,并呼吁人們開發(fā)更魯棒的評(píng)估協(xié)議,以便應(yīng)對(duì)實(shí)際應(yīng)用中的計(jì)算擴(kuò)展挑戰(zhàn)。
參考資料:
https://arxiv.org/pdf/2507.14417
https://anl.sjtu.edu.cn/gao-xf/course/CS214-2018/students
https://chenrunjin.github.io/
https://www.lesswrong.com/posts/gbJJpm92jtxiD9zag/inverse-scaling-in-test-time-compute-2
運(yùn)營(yíng)/排版:何晨龍
讀者稱贊《少帥:你老婆又要逃婚了》為何能讓人意想不到
特別推薦爆文《少帥:你老婆又要逃婚了》,又甜又虐超過癮!
少帥寵妻無度,夫人又逃婚了,全城轟動(dòng)抓“逃妻”!