盡管多模態(tài)大模型在數(shù)學(xué)、科學(xué)等結(jié)構(gòu)化任務(wù)中取得了長足進步,但在需要靈活解讀視覺信息的通用場景下,其性能提升瓶頸依然顯著。現(xiàn)有模型普遍依賴基于知識的思維模式,卻缺乏對視覺線索的深度校驗與再思考能力,導(dǎo)致在復(fù)雜場景下頻繁出錯。
為解決這一難題,來自中科院自動化研究所紫東太初大模型研究中心的研究者提出GThinker,一個旨在實現(xiàn)通用多模態(tài)推理的新型多模態(tài)大模型。
GThinker的核心在于其創(chuàng)新的「線索引導(dǎo)式反思(Cue-GuidedRethinking)」模式,它賦予了模型在推理過程中主動校驗、修正視覺理解的能力。
通過精心設(shè)計的兩階段訓(xùn)練流程,GThinker在極具挑戰(zhàn)性的M3CoT綜合推理基準上取得了超越了最新的O4-mini模型,并在多個數(shù)學(xué)及知識推理榜單上展現(xiàn)出SOTA性能,證明了該方法的有效性和泛化能力。目前,論文、數(shù)據(jù)及模型均已開源。
慢思考的瓶頸:
當(dāng)模型在通用場景「視而不見」
當(dāng)前,無論是開源的Qwen2.5-VL,還是閉源的GPT-4o,多模態(tài)大模型的能力邊界正在被不斷拓寬。尤其在引入了思維鏈(CoT)等慢思考策略后,模型在數(shù)學(xué)、科學(xué)等邏輯密集型任務(wù)上的表現(xiàn)得到了顯著增強。
然而,這些進步并未完全轉(zhuǎn)化為在通用多模態(tài)場景下的推理能力。與擁有明確答案和嚴格邏輯結(jié)構(gòu)的數(shù)理任務(wù)不同,通用場景(如理解一幅畫的寓意、分析復(fù)雜的日常情景)往往涉及:
高度的視覺依賴:答案強依賴于對圖像中多個、甚至有歧義的視覺線索的正確解讀。
復(fù)雜的推理路徑:沒有固定的解題范式,需要模型根據(jù)具體問題靈活組織推理步驟。
現(xiàn)有方法,無論是基于結(jié)構(gòu)化CoT的,還是基于結(jié)果獎勵強化學(xué)習(xí)的,都存在明顯的局限性。它們在推理中一旦對某個視覺線索產(chǎn)生誤判,往往會「一條道走到黑」,缺乏中途「回頭看」、修正認知偏差的機制。
現(xiàn)有主流多模態(tài)推理方法的特點與局限性
GThinker:
從「思維鏈」到「再思考鏈」
為了打破這一瓶頸,研究團隊提出了GThinker,其核心是一種全新的推理模式——「線索引導(dǎo)式反思」(Cue-GuidedRethinking)。該模式將推理過程升級為一種更接近人類思維的「思考-反思-修正」閉環(huán),它不強制規(guī)定僵化的推理結(jié)構(gòu),而是要求模型在自由推理后,對關(guān)鍵視覺線索進行一次系統(tǒng)性的回溯驗證。
Cue-Rethinking核心流程,虛線框代表可能進行
整個過程分為三個階段:
1.自由初始推理:模型根據(jù)問題和圖像內(nèi)容,自由地進行一步步推理,同時使用vcues_*標簽標記出其所依賴的關(guān)鍵視覺線索。
2.反思觸發(fā):在初步推理鏈完成后,一個反思提示(如「Let'sverifyeachvisualcueanditsreasoningbeforefinalizingtheanswer.」)被觸發(fā),引導(dǎo)模型進入基于再思考階段。
3.基于視覺線索的反思:模型逐一回顧所有標記的視覺線索,檢查其解釋是否存在不一致、錯誤或遺漏。一旦發(fā)現(xiàn)問題,模型會修正或補充對該線索的理解,并基于新的理解重新進行推理,最終得出結(jié)論。
GThinker推理模式示例
以上圖為例,GThinker在初步推理中可能將圖形誤判為「螃蟹」。但在再思考階段,它會發(fā)現(xiàn)「紅色三角形更像蝦頭而非蟹身」、「藍粉組合更像蝦尾而非蟹鉗」,從而修正整個推理路徑,最終得出正確答案「蝦」。這種機制使得GThinker能夠有效處理有歧義或誤導(dǎo)性的視覺信息,極大地提升了推理的準確性。
兩階段訓(xùn)練法:
如何教會模型進行再思考?
為了讓模型內(nèi)化這種強大的反思能力,GThinker設(shè)計了一套環(huán)環(huán)相扣的兩階段訓(xùn)練框架。
模式引導(dǎo)冷啟動
不同于數(shù)理領(lǐng)域在預(yù)訓(xùn)練后自然涌現(xiàn)的反思能力,單純依靠來結(jié)果獎勵強化學(xué)習(xí)「探索」出如此復(fù)雜的再思考行為,不僅成本高昂且效率低下。因此,GThinker首先通過監(jiān)督微調(diào)的方式,為模型「冷啟動」構(gòu)建基于視覺線索的再思考能力。
為此,首先通過「多模態(tài)迭代式標注」構(gòu)建了一個包含7K高質(zhì)量冷啟動樣本數(shù)據(jù)集:利用GPT-4o、O1、O3等多個先進模型的互補優(yōu)勢,對覆蓋通用、數(shù)學(xué)、科學(xué)三大領(lǐng)域的復(fù)雜問題進行迭代式地推理和標注,生成了包含高質(zhì)量再思考路徑的訓(xùn)練數(shù)據(jù)。
在訓(xùn)練時,GThinker采用「模式引導(dǎo)選擇性格式化」策略,僅對那些基座模型會產(chǎn)生視覺誤判的樣本應(yīng)用完整的「反思鏈」格式,其余則保留為標準推理格式。這使得模型能夠?qū)W會在「需要時」才進行反思,而非機械地執(zhí)行。
激勵強化學(xué)習(xí)
在掌握「如何思考」以及基于視覺線索進行「再思考」的能力基礎(chǔ)上,GThinker進一步引入基于可驗證獎勵的強化學(xué)習(xí)方法,設(shè)計混合獎勵機制并構(gòu)建覆蓋多種推理類型的多場景訓(xùn)練數(shù)據(jù),以持續(xù)激勵模型在多樣化任務(wù)中進行主動探索,從而實現(xiàn)思維模式的跨場景泛化遷移。
多場景數(shù)據(jù)構(gòu)建:廣泛收集開源推理數(shù)據(jù),并通過embedding聚類的方式進行均衡和多樣性采樣,從中精選包含約4K條多場景、多任務(wù)的強化學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,為泛化能力的提升提供數(shù)據(jù)保障。
DAPO訓(xùn)練:相較于GRPO,DAPO采用動態(tài)采樣的方式,保證batch樣本的有效性,并應(yīng)用無KL和cliphigher等策略,更適用于長鏈思考和探索,使模型學(xué)會在不同場景下選擇最優(yōu)推理方式。
混合獎勵計算:針對選擇題、數(shù)學(xué)題等常見任務(wù)類型,分別采用精確匹配、Math-Verify工具校驗的方式計算獎勵,對于通用場景下常見的開放式簡答題,通過加入格式化響應(yīng)讓模型回答歸納到短語或單詞的形式,以應(yīng)用精確匹配的計算方式,從而確保了獎勵信號的準確性和進一步拓展支持任務(wù)的多樣性。
結(jié)果
在復(fù)雜、多步及多領(lǐng)域的多模態(tài)推理基準M3CoT上,GThinker在多個場景的測試中超過當(dāng)前先進的開源多模態(tài)推理模型及O4-mini。
在通用場景(MMStar、RealWorldQA)、多學(xué)科場景(MMMU-Pro)及數(shù)學(xué)基準測試中,GThinker實現(xiàn)了優(yōu)于或不遜于現(xiàn)有先進模型的表現(xiàn),證明了GThinker所學(xué)的再思考能力并未造成「偏科」,而是實現(xiàn)了整體通用能力提升。
盡管GThinker的數(shù)據(jù)均為復(fù)雜推理任務(wù)構(gòu)建,但經(jīng)過這一方法及數(shù)據(jù)的訓(xùn)練后,當(dāng)前最領(lǐng)先的開源模型依然能夠在通用指標上進一步提升。研究團隊選取了OpenCompass閉源多模態(tài)榜單中10B規(guī)模下最新排名前三的開源模型,在學(xué)術(shù)榜單上進行測試。結(jié)果顯示,GThinker在這三款模型上均帶來約1個百分點左右的平均性能提升,進一步印證了其方法的有效性與泛化能力。
Demo
冰鞋藏黑科技,石墨烯恒溫,選手赤足迎低溫
花滑冰鞋的高科技,從未脫離軍工、航天等“硬核鄰居”的庇護-。鋰電池技術(shù)最初源自德軍潛艇,能在極寒深海穩(wěn)定供電_——。如今裝進冰鞋里,比原型縮小一百倍,照樣扛得住-40℃。更有北極部隊智能襪被加拿大運動員借用,腳部18個傳感器根據(jù)體溫自動調(diào)節(jié)加熱強度,像智能恒溫器般貼心省電。瑞典科研團隊盯上了北極魚類的抗凍 滑冰,這項優(yōu)雅與速度并存的運動,其背后的裝備歷史同樣引人入勝。從最初的簡易冰鞋,到現(xiàn)代高科技材質(zhì)打造的精致冰鞋,每一步的變革都彰顯了人類對運動的追求與熱愛——。在這其中,花樣滑冰的冰鞋尤為引人注目,其不僅承載著運動員的夢想與榮耀,更見證了滑冰運動從簡單到復(fù)雜的華麗轉(zhuǎn)身。冰鞋滑冰運動的起源滑冰這項是什么。旱冰鞋哪個品牌質(zhì)量好!9款不容錯過的旱冰鞋推薦!