劉勇,中國人民大學(xué),長聘副教授,博士生導(dǎo)師,國家級高層次青年人才。長期從事機(jī)器學(xué)習(xí)基礎(chǔ)理論研究,共發(fā)表論文100余篇,其中以第一作者/通訊作者發(fā)表頂級期刊和會議論文近50篇,涵蓋機(jī)器學(xué)習(xí)領(lǐng)域頂級期刊JMLR、IEEETPAMI、ArtificialIntelligence和頂級會議ICML、NeurIPS等。
你肯定見過大模型在解題時「裝模作樣」地輸出:「Hmm…」、「Wait,letmethink」、「Therefore…」這些看似「人類化」的思考詞。
但一個靈魂拷問始終存在:這些詞真的代表模型在「思考」,還是僅僅為了「表演」更像人類而添加的語言裝飾?是模型的「頓悟時刻」,還是純粹的「煙霧彈」?
現(xiàn)在,實錘來了!來自中國人民大學(xué)高瓴人工智能學(xué)院、上海人工智能實驗室、倫敦大學(xué)學(xué)院(UCL)和大連理工大學(xué)的聯(lián)合研究團(tuán)隊,在最新論文中首次利用信息論這把「手術(shù)刀」,精準(zhǔn)解剖了大模型內(nèi)部的推理動態(tài),給出了令人信服的答案:
當(dāng)這些「思考詞」出現(xiàn)的瞬間,模型大腦(隱空間)中關(guān)于正確答案的信息量,會突然飆升數(shù)倍!
這絕非偶然裝飾,而是真正的「信息高峰」與「決策拐點」!更酷的是,基于這一發(fā)現(xiàn),研究者提出了無需額外訓(xùn)練就能顯著提升模型推理性能的簡單方法,代碼已開源!
論文題目:DemystifyingReasoningDynamicswithMutualInformation:ThinkingTokensareInformationPeaksinLLMReasoning
論文鏈接:https://arxiv.org/abs/2506.02867
代碼鏈接:https://github.com/ChnQ/MI-Peaks
核心發(fā)現(xiàn)一:揭秘大模型推理軌跡中的「信息高峰」現(xiàn)象
研究者們追蹤了像DeepSeek-R1系列蒸餾模型、QwQ這類擅長推理的大模型在解題時的「腦電波」(隱空間表征)。他們測量每一步的「腦電波」與最終正確答案的互信息(MutualInformation,MI),并觀察這些互信息如何演繹變化。
驚人現(xiàn)象出現(xiàn)了:模型推理并非勻速「爬坡」,而是存在劇烈的「信息脈沖」!在特定步驟,互信息值會突然、顯著地飆升,形成顯著的「互信息峰值」(MIPeaks)現(xiàn)象。這些峰值點稀疏但關(guān)鍵,如同黑暗推理路徑上突然點亮的強(qiáng)光路標(biāo)!
這意味著什么?直覺上,這些互信息峰值點處的表征,模型大腦中那一刻的狀態(tài),蘊含了更多指向正確答案的最關(guān)鍵信息!
進(jìn)一步地,研究者通過理論分析證明(定理1&2),推理過程中積累的互信息越高,模型最終回答錯誤概率的上界和下界就越緊,換言之,回答正確的概率就越高!
既然互信息峰值的現(xiàn)象較為普遍地出現(xiàn)在推理模型(LRMs)中,那么非推理模型(non-reasoningLLMs)上也會表現(xiàn)出類似的現(xiàn)象嗎?
為了探索這一問題,研究者選取了DeepSeek-R1-Distill系列模型和其對應(yīng)的非推理模型進(jìn)行實驗。如上圖橙色線所示,在非推理模型的推理過程中,互信息往往表現(xiàn)出更小的波動,體現(xiàn)出明顯更弱的互信息峰值現(xiàn)象,且互信息的數(shù)值整體上更小。
這表明在經(jīng)過推理能力強(qiáng)化訓(xùn)練后,推理模型一方面似乎整體在表征中編碼了更多關(guān)于正確答案的信息,另一方面催生了互信息峰值現(xiàn)象的出現(xiàn)!
核心發(fā)現(xiàn)二:「思考詞匯」=「信息高峰」的語言化身
那么,這些互信息峰值點處的表征,到底蘊含著怎樣的語義信息?
神奇的是,當(dāng)研究者把這些「信息高峰」時刻的「腦電波」翻譯回人能看懂的語言(解碼到詞匯空間)時,發(fā)現(xiàn)它們最常對應(yīng)的,恰恰是那些標(biāo)志性的「思考詞」:
反思/停頓型:「Hmm」、「Wait」…
邏輯/過渡型:「Therefore」、「So」…
行動型:「Let」、「First」…
例如,研究者隨機(jī)摘取了一些模型輸出:「Wait,letmethinkdifferently.Let’sdenote...,」「Hmm,soImusthavemadeamistakesomewhere.Letmedouble-checkmycalculations.First,...」
研究團(tuán)隊將這些在互信息峰值點頻繁出現(xiàn)、承載關(guān)鍵信息并在語言上推動模型思考的詞匯命名為「思考詞匯」(thinkingtokens)。它們不是可有可無的裝飾,而是信息高峰在語言層面的「顯靈」,可能在模型推理路徑上扮演著關(guān)鍵路標(biāo)或決策點的角色!
為了證明這些tokens的關(guān)鍵性,研究者進(jìn)行了干預(yù)實驗,即在模型推理時抑制這些思考詞匯的生成。
實錘驗證:實驗結(jié)果顯示,抑制思考詞匯的生成會顯著影響模型在數(shù)學(xué)推理數(shù)據(jù)集(如GSM8K、MATH、AIME24)上的性能;相比之下,隨機(jī)屏蔽相同數(shù)量的其他普通詞匯,對性能影響甚微。這表明這些存在于互信息峰值點處的思考詞匯,確實對模型有效推理具有至關(guān)重要的作用!
啟發(fā)應(yīng)用:無需訓(xùn)練,巧用「信息高峰」提升推理性能
理解了「信息高峰」和「思考詞匯」的奧秘,研究者提出了兩種無需額外訓(xùn)練即可提升現(xiàn)有LRMs推理性能的實用方法。
應(yīng)用一:表征循環(huán)(RepresentationRecycling-RR)
啟發(fā):既然MI峰值點的表征蘊含豐富信息,何不讓模型「多咀嚼消化」一下?
方法:在模型推理過程中,當(dāng)檢測到生成了思考詞匯時,不急于讓其立刻輸出,而是將其對應(yīng)的表征重新輸入到模型中進(jìn)行額外一輪計算,讓模型充分挖掘利用表征中的豐富信息。
效果:在多個數(shù)學(xué)推理基準(zhǔn)(GSM8K、MATH500、AIME24)上,RR方法一致地提升了LRMs的推理性能。例如,在極具挑戰(zhàn)性的AIME24上,DeepSeek-R1-Distill-LLaMA-8B的準(zhǔn)確率相對提升了20%!這表明讓模型更充分地利用這些高信息量的「頓悟」表征,能有效解鎖其推理潛力。
應(yīng)用二:基于思考詞匯的測試時擴(kuò)展(ThinkingTokenbasedTest-timeScaling-TTTS)
啟發(fā):在推理時如果允許模型生成更多token(增加計算預(yù)算),如何引導(dǎo)模型進(jìn)行更有效的「深度思考」,而不是漫無目的地延伸?
方法:受啟發(fā)于前人工作,作者在模型完成初始推理輸出后,如果還有token預(yù)算,則強(qiáng)制模型以「思考詞匯」開頭(如「Therefore」、「So」、「Wait」、「Hmm」等)繼續(xù)生成后續(xù)內(nèi)容,引導(dǎo)模型在額外計算資源下進(jìn)行更深入的推理。
效果:當(dāng)token預(yù)算增加時,TTTS能持續(xù)穩(wěn)定地提升模型的推理性能。如圖所示,在GSM8K和MATH500數(shù)據(jù)集上,在相同的Token預(yù)算下,TTTS持續(xù)優(yōu)于原始模型。在AIME24數(shù)據(jù)集上,盡管原始模型的性能在早期提升得較快,但當(dāng)token預(yù)算達(dá)到4096后,模型性能就到達(dá)了瓶頸期;而TTTS引導(dǎo)下的模型,其性能隨著Token預(yù)算的增加而持續(xù)提升,并在預(yù)算達(dá)到6144后超越了原始模型。
小結(jié)
這項研究首次揭示了LRMs推理過程中的動態(tài)機(jī)制:通過互信息動態(tài)追蹤,首次清晰觀測到LRMs推理過程中的互信息峰值(MIPeaks)現(xiàn)象,為理解模型「黑箱」推理提供了創(chuàng)新視角和實證基礎(chǔ)。
進(jìn)一步地,研究者發(fā)現(xiàn)這些互信息峰值處的token對應(yīng)的是表達(dá)思考、反思等的「思考詞匯」(ThinkingTokens),并通過干預(yù)實驗驗證了這些token對模型推理性能具有至關(guān)重要的影響。
最后,受啟發(fā)于對上述現(xiàn)象的理解和分析,研究者提出了兩種簡單有效且無需訓(xùn)練的方法來提升LRMs的推理性能,即表征循環(huán)(RepresentationRecycling-RR)和基于思考詞匯的測試時擴(kuò)展(ThinkingTokenbasedTest-timeScaling-TTTS)。
研究者希望這篇工作可以為深入理解LRMs的推理機(jī)制提供新的視角,并進(jìn)一步提出可行的方案來進(jìn)一步推升模型的推理能力。
53本2025年上半年完本高口碑小說,推薦各位書荒的讀者收藏關(guān)注!
第十九部、小呆昭《宇宙無限食堂》,類別:科幻時空穿梭,字?jǐn)?shù):166萬完結(jié)時間:3月28日簡介:開局主角所在公司的老板跑路,在回家途中收留了號稱來自其他宇宙的機(jī)械生命。他能烹飪多余宇宙的一切美食,還能通過神秘蟲蛋前往其他宇宙位面收集食材。接著兩人從擺地攤開始,探索異世界的不同位面-。因為菜品非常好得到食客認(rèn)同,飯店 一個人的心很小,可能只放的下自己,一個人的心很大,可以如宇宙浩瀚。本書文筆優(yōu)美,故事曲折,場景波瀾壯闊,各種想象中的人物形象特點鮮明,加上觀點的共鳴,閱讀一本好書是一種享受!缺點:喜歡瞎埋伏筆,但是處理的不好。世界觀一般,故事描述給人爽度不夠_。第二部、《我的一天有48小時》,作者:小呆昭,..暑假日記優(yōu)秀范文