【導(dǎo)讀】多模態(tài)推理模型真的「越想越明白」嗎?研究表明,R1系列模型在推理鏈條加長(zhǎng)的過程中,其視覺感知能力出現(xiàn)下降趨勢(shì),生成內(nèi)容有時(shí)會(huì)偏離圖像本身,出現(xiàn)「看見」不存在事物的幻覺現(xiàn)象。推理能力的提升,在一定程度伴隨著視覺對(duì)齊的弱化,呈現(xiàn)出「越推理越幻覺」的傾向。這一現(xiàn)象引發(fā)了研究者對(duì)多模態(tài)推理模型中感知與推理如何動(dòng)態(tài)平衡的深入思考:當(dāng)模型不斷追求更強(qiáng)的推理深度,是否也正在喪失對(duì)現(xiàn)實(shí)世界的視覺錨點(diǎn)?
在多模態(tài)大模型的飛速發(fā)展中,R1系列多模態(tài)推理模型憑借顯式的長(zhǎng)鏈推理機(jī)制,在復(fù)雜任務(wù)中屢屢突破傳統(tǒng)「快思考」范式的性能瓶頸。
然而,研究發(fā)現(xiàn),隨著推理鏈條的加長(zhǎng),這類模型的視覺感知能力卻呈現(xiàn)出明顯下滑的趨勢(shì),逐漸轉(zhuǎn)而依賴語言先驗(yàn)進(jìn)行「腦補(bǔ)」,生成內(nèi)容也越來越容易脫離圖像本身,甚至出現(xiàn)憑空捏造的幻覺現(xiàn)象。
這一「推理增強(qiáng)—感知削弱」的悖論,凸顯了當(dāng)前多模態(tài)推理模型在推理能力與感知準(zhǔn)確性之間面臨的平衡挑戰(zhàn)。
為進(jìn)一步驗(yàn)證這一現(xiàn)象,來自加州大學(xué)圣克魯茲分校、圣塔芭芭拉分校和斯坦福大學(xué)的研究團(tuán)隊(duì)開展了系統(tǒng)性分析。
通過引入推理長(zhǎng)度控制機(jī)制與可解釋性注意力可視化方法,研究者發(fā)現(xiàn):隨著推理鏈的延長(zhǎng),模型對(duì)圖像內(nèi)容的關(guān)注顯著下降,而對(duì)語言提示的依賴不斷增強(qiáng),凸顯出語言主導(dǎo)下的視覺偏離趨勢(shì)。
在此基礎(chǔ)上,團(tuán)隊(duì)提出了全新的評(píng)估指標(biāo)RH-AUC,并構(gòu)建了配套的診斷性基準(zhǔn)集RH-Bench,首次系統(tǒng)量化了多模態(tài)推理模型在推理能力與視覺感知穩(wěn)定性之間的平衡表現(xiàn)。
該工具不僅提升了模型幻覺風(fēng)險(xiǎn)的可測(cè)性,也為未來多模態(tài)系統(tǒng)的穩(wěn)健性評(píng)估與改進(jìn)提供了重要參考。
推理增強(qiáng)帶來的視覺幻覺放大效應(yīng)
在當(dāng)前多模態(tài)大模型的演進(jìn)中,R1類推理模型因引入顯式的長(zhǎng)鏈語言推理過程(ReasoningChain),在復(fù)雜任務(wù)上展現(xiàn)出強(qiáng)大的表達(dá)能力。
然而,研究人員系統(tǒng)性觀察到一個(gè)被廣泛忽視的現(xiàn)象:隨著推理鏈長(zhǎng)度的加深,模型在感知任務(wù)中的視覺對(duì)齊能力顯著下降,幻覺風(fēng)險(xiǎn)隨之放大。
這一趨勢(shì)在多組實(shí)證對(duì)比中被清晰觀察到。
例如,在圖(b)中,研究人員對(duì)比了多個(gè)7B規(guī)模的多模態(tài)模型在推理與感知兩類任務(wù)中的表現(xiàn):盡管R1-OneVision-7B等模型在推理準(zhǔn)確率上具備一定優(yōu)勢(shì),但其在感知任務(wù)中的準(zhǔn)確率卻降至最低,顯著低于同規(guī)模的非推理模型(如Qwen2.5-VL-7B)。
這表明推理鏈的加深并非「無代價(jià)」的增強(qiáng),而是以犧牲圖像感知能力為代價(jià),放大了幻覺。
具體來說,當(dāng)模型在圖文任務(wù)中逐步延展其語言鏈條時(shí),原本應(yīng)支撐答案的圖像證據(jù)信號(hào)卻被悄然邊緣化。
以典型視覺問答任務(wù)為例,在推理模型中生成的冗長(zhǎng)輸出往往并未真正參考圖像內(nèi)容,而是依賴語言常識(shí)「腦補(bǔ)」出一個(gè)聽上去合理、但圖像中并不存在的答案。這種現(xiàn)象在多個(gè)感知評(píng)測(cè)基準(zhǔn)(如MMVP、MMHAL)中反復(fù)出現(xiàn)。
如圖所示,在多個(gè)視覺感知任務(wù)的綜合評(píng)估中,R1類模型普遍低于同規(guī)模的Base模型,尤其在需要細(xì)致圖像對(duì)齊能力的MMHAL和MMVP上,差距更為顯著。
這進(jìn)一步印證了:推理鏈的增強(qiáng)不僅沒有提升感知質(zhì)量,反而加劇了模型「脫圖而答」的幻覺傾向。
綜上,推理鏈的增強(qiáng)并非無代價(jià),「更聰明」的推理模型在感知類任務(wù)上反而可能「看得更少」。
越「聰明」越容易出錯(cuò)?
為了深入理解多模態(tài)推理模型為何更容易產(chǎn)生幻覺,研究團(tuán)隊(duì)對(duì)模型內(nèi)部的注意力分布進(jìn)行了系統(tǒng)分析,揭示出一種結(jié)構(gòu)性機(jī)制:推理增強(qiáng)并非免費(fèi)午餐,它以犧牲視覺關(guān)注為代價(jià)換取語言推理能力的提升。
具體來說,相較于非推理模型,R1類推理模型在生成過程中顯著減少了對(duì)視覺token的關(guān)注,取而代之的是將大量注意力分配給指令token與語言上下文(圖a)。
更為關(guān)鍵的是,這種「注意力遷移」并非固定偏差,而是隨著推理鏈條的延展而逐層加劇——越往后層,模型越傾向于忽略圖像輸入,而完全依賴語言信號(hào)進(jìn)行推理。
如圖(b)所示,在視覺聚焦任務(wù)中,非推理模型(Qwen2.5-VL)在多層均展現(xiàn)出對(duì)圖中關(guān)鍵區(qū)域(如奶酪)的穩(wěn)定關(guān)注;而R1模型(R1-OneVision)在同樣問題下,其注意力熱圖呈現(xiàn)出明顯的視覺退化,深層幾乎完全失焦。
這種結(jié)構(gòu)性偏移使得模型即使面對(duì)明確依賴圖像的問題,也往往「憑語言猜」,最終生成與圖像嚴(yán)重脫節(jié)的幻覺答案。
不僅如此,研究發(fā)現(xiàn)這一現(xiàn)象在模型進(jìn)入「過度思考」(Overthinking)階段時(shí)表現(xiàn)得尤為明顯。
隨著推理鏈的延長(zhǎng),模型對(duì)視覺token的關(guān)注持續(xù)減弱,而對(duì)指令等語言token的注意力則顯著增強(qiáng),導(dǎo)致生成過程越來越依賴語言線索而非圖像內(nèi)容。
推理鏈「長(zhǎng)度悖論」:思考越多,幻覺越大?
模型推理鏈條的長(zhǎng)短,真的越長(zhǎng)越好嗎?研究團(tuán)隊(duì)對(duì)比了三種不同的推理長(zhǎng)度控制策略在多個(gè)基準(zhǔn)測(cè)試中(TokenBudgetForcing、Test-TimeScaling與LatentStateSteering),首次系統(tǒng)揭示了一個(gè)關(guān)鍵現(xiàn)象:推理鏈條的長(zhǎng)度與模型表現(xiàn)之間,呈現(xiàn)出非單調(diào)的「倒U型」關(guān)系。
如圖所示,在以推理為主的任務(wù)中(左兩圖),模型準(zhǔn)確率先隨推理鏈延長(zhǎng)而提升,但當(dāng)鏈條過長(zhǎng)后反而回落,說明「過度思考」并不一定帶來更強(qiáng)的reasoning能力。
而在以感知為主的任務(wù)中(右兩圖),隨著推理長(zhǎng)度的增加,幻覺率則持續(xù)上升,表明冗余語言生成會(huì)系統(tǒng)性干擾視覺對(duì)齊。
這一趨勢(shì)強(qiáng)調(diào):合理控制推理長(zhǎng)度,是提升模型穩(wěn)健性與感知–推理平衡能力的關(guān)鍵。
RH-AUC等指標(biāo)的引入,也為這一非線性關(guān)系提供了更具解釋力的定量刻畫。
RH-AUC:推理與幻覺的動(dòng)態(tài)權(quán)衡評(píng)估
面對(duì)多模態(tài)模型中推理增強(qiáng)與幻覺放大的兩難局面,研究團(tuán)隊(duì)提出了一項(xiàng)全新評(píng)估指標(biāo):RH-AUC(Reasoning-HallucinationAreaUnderCurve)。
不同于傳統(tǒng)指標(biāo)只在單一推理長(zhǎng)度上評(píng)估準(zhǔn)確率或幻覺率,RH-AUC從整體視角出發(fā),衡量模型在不同推理深度下「思考力」與「看清力」的動(dòng)態(tài)平衡水平。
具體做法是:在新構(gòu)建的RH-Bench數(shù)據(jù)集中(包含1000個(gè)跨感知與推理的樣本),分別統(tǒng)計(jì)模型在不同推理長(zhǎng)度下的reasoningaccuracy與hallucinationrisk,然后計(jì)算兩者構(gòu)成曲線下的面積。
RH-AUC越高,說明模型在推理增強(qiáng)的同時(shí),視覺對(duì)齊能力保持得越好——既能「想得深」,也能「看得清」。
實(shí)驗(yàn)結(jié)果揭示出三個(gè)關(guān)鍵趨勢(shì):
1.更大規(guī)模模型更具穩(wěn)健性:如圖(a)所示,7B模型在不同思考深度下展現(xiàn)出更平滑的RH-AUC曲線,并在峰值處取得更高分?jǐn)?shù),說明其具備更強(qiáng)的推理–感知整合能力。
2.RL-only訓(xùn)練范式優(yōu)于SFT+RL:如圖(b)所示,在不同訓(xùn)練策略下,純RL訓(xùn)練的模型平均RH-AUC均高于混合范式,尤其在長(zhǎng)推理鏈條件下差距顯著(0.57vs0.50)。
這表明RL-only更傾向于自適應(yīng)生成高質(zhì)量的推理路徑,而SFT+RL更容易陷入冗余模仿,從而干擾感知判斷。
3.數(shù)據(jù)「類型」比規(guī)模更重要:實(shí)驗(yàn)發(fā)現(xiàn),與其盲目擴(kuò)展訓(xùn)練集規(guī)模,不如引入少量具備領(lǐng)域感知特征的樣本(如數(shù)學(xué)推理或圖像感知任務(wù)),更有助于引導(dǎo)模型在「看圖」與「思考」之間實(shí)現(xiàn)平衡。
RH-AUC不僅填補(bǔ)了評(píng)估維度上的空白,也為未來多模態(tài)模型的訓(xùn)練目標(biāo)提供了更明確的參考方向:推理不是越多越好,保持在「看見圖像」與「想通問題」之間的張力,才是更優(yōu)范式。
你知道電影歷史上第一個(gè)喪尸長(zhǎng)得啥樣嗎?顏值真心有點(diǎn)高!
僵尸、病毒、異種入侵,這八部末日題材劇,緊張刺激加懸疑!
絕望的生存日?!┤諉适?盤點(diǎn)五部純喪尸題材的動(dòng)漫
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。