本文第一作者是來自南洋理工大學的博士生趙克森,主要研究方向為ReinforcementLearninginMLLMs.該論文已被ICCV2025錄用。
隨著文本領域中思維鏈(Chain-of-Thought,CoT)推理機制的成功應用,研究者開始將該方法引入視覺理解任務,以提升模型的推理能力和可解釋性。
然而,現(xiàn)有模型局限于文本級別的思維鏈推理,且處理圖像的粒度固定,難以根據語義線索動態(tài)關注圖像中的關鍵區(qū)域。針對上述問題,本文提出UV-CoT(UnsupervisedVisualChain-of-Thought),一種無監(jiān)督視覺思維鏈推理新框架
該方法以「關鍵區(qū)域→推理過程」的人類視覺理解方式為參考(如下圖所示),設計了無監(jiān)督的數(shù)據生成與偏好優(yōu)化機制,動態(tài)聚焦關鍵區(qū)域,實現(xiàn)細粒度推理,顯著提升了模型的空間感知與圖文推理能力。
論文標題:UnsupervisedVisualChain-of-ThoughtReasoningviaPreferenceOptimization論文鏈接:https://arxiv.org/abs/2504.18397項目地址:https://kesenzhao.github.io/my_project/projects/UV-CoT.html代碼倉庫:https://github.com/kesenzhao/UV-CoT開源模型:https://huggingface.co/papers/2504.18397
背景:有監(jiān)督訓練
需要高昂的人工成本
現(xiàn)有方法采用有監(jiān)督微調(SupervisedFine-Tuning,SFT)策略訓練模型,使用大量有標簽的思維鏈推理數(shù)據,由人工標注關鍵區(qū)域及其推理過程。這類方法面臨以下挑戰(zhàn):
人工標注成本高,擴展性差:標注關鍵圖像區(qū)域和推理路徑需要耗費大量人力和時間,尤其在復雜視覺語義理解任務中,難以適應多任務或大規(guī)模場景。
訓練信號單一,泛化能力有限:SFT僅利用人工標注的「正樣本」(正確區(qū)域及回答),忽略其他潛在合理或不合理的區(qū)域與推理路徑,導致模型在未知場景下的泛化能力不足。
UV-CoT設計了一套自動化的偏好數(shù)據生成與評估流程,結合改進的偏好優(yōu)化算法Score-DPO(sDPO),在不依賴人工標注的前提下,通過偏好評分排序引導模型實現(xiàn)無監(jiān)督圖像級思維鏈學習(如下圖所示)。
貢獻一:無監(jiān)督偏好數(shù)據生成與評估
通過動態(tài)生成偏好數(shù)據,UV-CoT減少了對高質量標注數(shù)據的依賴,能夠在無監(jiān)督數(shù)據條件下實現(xiàn)圖像級思維鏈推理。
貢獻二:sDPO與迭代學習
UV-CoT使用改進的直接偏好優(yōu)化(DPO)算法sDPO,通過引入偏好分數(shù)差異優(yōu)化圖像級思維鏈推理,并采用迭代學習策略動態(tài)適應模型輸出分布。
sDPO損失函數(shù)如下:
實驗亮點
顯著性能提升(表1):在六大基準上,優(yōu)于有監(jiān)督的思維鏈模型Visual-CoT-7B,遠超目標模型LLaVA-1.5-7B和其他無思維鏈模型。
泛化能力強,易于拓展(表2):在零樣本設置下,UV-CoT平均提升2.5%,添加額外無標注數(shù)據后,平均提升達5.1%。
勝任高分辨率場景(表3):在V*Bench上,UV-CoT平均得分0.402,平均提升5.5%,尤其在OCR任務中提升8.4%。
不依賴評估模型,邊界框生成質量高(表5):UV-CoT通過自評估(目標模型作為評估器)表現(xiàn)仍遠超目標模型LLaVA-1.5-7B(+4.8%),接近12B模型OmniLMM-12B(-0.2%)。將UV-CoT生成的邊界框應用于OmniLMM-12B和LLaVA-1.5-7B輔助推理,性能分別提升7.3%和4.7%。
偏好數(shù)據與思維鏈推理可視化
結語
UV-CoT提出了一種創(chuàng)新的無監(jiān)督視覺思維鏈推理框架,通過自動化的數(shù)據生成與對比評估機制,成功擺脫了對人工標注的依賴,實現(xiàn)了關鍵圖像區(qū)域的自動識別與推理優(yōu)化。該方法為高效、可擴展的多模態(tài)推理提供了新思路,為未來無監(jiān)督視覺理解研究奠定了堅實基礎。
音樂唱作人李綱攜原創(chuàng)歌曲參加河北電視臺《男過女人關》節(jié)目錄制
近日,音樂唱作人李綱帶著自己的原創(chuàng)歌曲《兄弟還記得嗎》受邀河北電視臺《男過女人關》一起回憶那段為夢想拼搏努力、摸爬滾打的青蔥歲月-。在農民頻道首播后引起很大反響,作為音樂人的同時,李綱負責黑豹樂隊原主唱秦勇及樂隊演出工作,平時喜歡撿垃圾,天南海北演出不論到哪走到哪撿到哪。有時這喜歡音樂的人音樂現(xiàn)場都特熱情、特容易興奮,有還有呢? 今晚7點,《男過女人關》將播出重要壓軸節(jié)目,不容錯過!作為2017年的壓軸大戲,節(jié)目最后一期即將上演,deck_drop期待值爆表!在節(jié)目里,之前未播片段將重現(xiàn),還有昨天節(jié)目中透露的重要看點|。對于錯過昨天節(jié)目的觀眾,今晚的節(jié)目無疑是彌補遺憾的最佳機會。昨日,我們的公眾號發(fā)布了一篇文章,其中透露了今天節(jié)目的說完了|——。《男過女人關》中圈粉無數(shù)的場景,是追書的動力!