劉奇勛
本文第一作者是來(lái)自南洋理工大學(xué)的博士生趙克森,主要研究方向?yàn)镽einforcementLearninginMLLMs.該論文已被ICCV2025錄用。
隨著文本領(lǐng)域中思維鏈(Chain-of-Thought,CoT)推理機(jī)制的成功應(yīng)用,研究者開(kāi)始將該方法引入視覺(jué)理解任務(wù),以提升模型的推理能力和可解釋性。
然而,現(xiàn)有模型局限于文本級(jí)別的思維鏈推理,且處理圖像的粒度固定,難以根據(jù)語(yǔ)義線索動(dòng)態(tài)關(guān)注圖像中的關(guān)鍵區(qū)域。針對(duì)上述問(wèn)題,本文提出UV-CoT(UnsupervisedVisualChain-of-Thought),一種無(wú)監(jiān)督視覺(jué)思維鏈推理新框架
該方法以「關(guān)鍵區(qū)域→推理過(guò)程」的人類視覺(jué)理解方式為參考(如下圖所示),設(shè)計(jì)了無(wú)監(jiān)督的數(shù)據(jù)生成與偏好優(yōu)化機(jī)制,動(dòng)態(tài)聚焦關(guān)鍵區(qū)域,實(shí)現(xiàn)細(xì)粒度推理,顯著提升了模型的空間感知與圖文推理能力。
論文標(biāo)題:UnsupervisedVisualChain-of-ThoughtReasoningviaPreferenceOptimization論文鏈接:https://arxiv.org/abs/2504.18397項(xiàng)目地址:https://kesenzhao.github.io/my_project/projects/UV-CoT.html代碼倉(cāng)庫(kù):https://github.com/kesenzhao/UV-CoT開(kāi)源模型:https://huggingface.co/papers/2504.18397
背景:有監(jiān)督訓(xùn)練
需要高昂的人工成本
現(xiàn)有方法采用有監(jiān)督微調(diào)(SupervisedFine-Tuning,SFT)策略訓(xùn)練模型,使用大量有標(biāo)簽的思維鏈推理數(shù)據(jù),由人工標(biāo)注關(guān)鍵區(qū)域及其推理過(guò)程。這類方法面臨以下挑戰(zhàn):
人工標(biāo)注成本高,擴(kuò)展性差:標(biāo)注關(guān)鍵圖像區(qū)域和推理路徑需要耗費(fèi)大量人力和時(shí)間,尤其在復(fù)雜視覺(jué)語(yǔ)義理解任務(wù)中,難以適應(yīng)多任務(wù)或大規(guī)模場(chǎng)景。
訓(xùn)練信號(hào)單一,泛化能力有限:SFT僅利用人工標(biāo)注的「正樣本」(正確區(qū)域及回答),忽略其他潛在合理或不合理的區(qū)域與推理路徑,導(dǎo)致模型在未知場(chǎng)景下的泛化能力不足。
UV-CoT設(shè)計(jì)了一套自動(dòng)化的偏好數(shù)據(jù)生成與評(píng)估流程,結(jié)合改進(jìn)的偏好優(yōu)化算法Score-DPO(sDPO),在不依賴人工標(biāo)注的前提下,通過(guò)偏好評(píng)分排序引導(dǎo)模型實(shí)現(xiàn)無(wú)監(jiān)督圖像級(jí)思維鏈學(xué)習(xí)(如下圖所示)。
貢獻(xiàn)一:無(wú)監(jiān)督偏好數(shù)據(jù)生成與評(píng)估
通過(guò)動(dòng)態(tài)生成偏好數(shù)據(jù),UV-CoT減少了對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的依賴,能夠在無(wú)監(jiān)督數(shù)據(jù)條件下實(shí)現(xiàn)圖像級(jí)思維鏈推理。
貢獻(xiàn)二:sDPO與迭代學(xué)習(xí)
UV-CoT使用改進(jìn)的直接偏好優(yōu)化(DPO)算法sDPO,通過(guò)引入偏好分?jǐn)?shù)差異優(yōu)化圖像級(jí)思維鏈推理,并采用迭代學(xué)習(xí)策略動(dòng)態(tài)適應(yīng)模型輸出分布。
sDPO損失函數(shù)如下:
實(shí)驗(yàn)亮點(diǎn)
顯著性能提升(表1):在六大基準(zhǔn)上,優(yōu)于有監(jiān)督的思維鏈模型Visual-CoT-7B,遠(yuǎn)超目標(biāo)模型LLaVA-1.5-7B和其他無(wú)思維鏈模型。
泛化能力強(qiáng),易于拓展(表2):在零樣本設(shè)置下,UV-CoT平均提升2.5%,添加額外無(wú)標(biāo)注數(shù)據(jù)后,平均提升達(dá)5.1%。
勝任高分辨率場(chǎng)景(表3):在V*Bench上,UV-CoT平均得分0.402,平均提升5.5%,尤其在OCR任務(wù)中提升8.4%。
不依賴評(píng)估模型,邊界框生成質(zhì)量高(表5):UV-CoT通過(guò)自評(píng)估(目標(biāo)模型作為評(píng)估器)表現(xiàn)仍遠(yuǎn)超目標(biāo)模型LLaVA-1.5-7B(+4.8%),接近12B模型OmniLMM-12B(-0.2%)。將UV-CoT生成的邊界框應(yīng)用于OmniLMM-12B和LLaVA-1.5-7B輔助推理,性能分別提升7.3%和4.7%。
偏好數(shù)據(jù)與思維鏈推理可視化
結(jié)語(yǔ)
UV-CoT提出了一種創(chuàng)新的無(wú)監(jiān)督視覺(jué)思維鏈推理框架,通過(guò)自動(dòng)化的數(shù)據(jù)生成與對(duì)比評(píng)估機(jī)制,成功擺脫了對(duì)人工標(biāo)注的依賴,實(shí)現(xiàn)了關(guān)鍵圖像區(qū)域的自動(dòng)識(shí)別與推理優(yōu)化。該方法為高效、可擴(kuò)展的多模態(tài)推理提供了新思路,為未來(lái)無(wú)監(jiān)督視覺(jué)理解研究奠定了堅(jiān)實(shí)基礎(chǔ)。
20本已完結(jié)精品法系西幻小說(shuō),奧術(shù)師、法師、巫師,法爺永遠(yuǎn)是爺
主角穿越到蠻荒的異世界,此世界荒獸橫行,萬(wàn)靈昌盛,人族掙扎求存_-。他擁有積攢能量化為屬性點(diǎn)的能力,可以憑借此加點(diǎn)升級(jí)。其出身村落,在發(fā)現(xiàn)自己金手指后就當(dāng)起了十里坡劍神,在危機(jī)中才一鳴驚人_——。之后他拜入宗門(mén),成為人族天驕,叱咤無(wú)敵,鎮(zhèn)壓天下,與神魔爭(zhēng)鋒,成就天帝,最終……小說(shuō)缺點(diǎn):存在部分自嗨的尬點(diǎn)等我繼續(xù)說(shuō)||。
8本已完結(jié)主角是魔法師的西幻小說(shuō),見(jiàn)證神秘世界,展開(kāi)華麗冒險(xiǎn)
總而言之,小說(shuō)不錯(cuò),值得一看。第十本《神魔系統(tǒng)》作者:資產(chǎn)暴增字?jǐn)?shù):350.3萬(wàn)簡(jiǎn)介:世界在一瞬間變成了末世,喪尸、變異獸橫行世界,當(dāng)岳重和他的團(tuán)隊(duì)經(jīng)歷一個(gè)個(gè)磨難最終收復(fù)全國(guó)時(shí),他才悚然發(fā)現(xiàn),他僅僅闖過(guò)了第一關(guān)-|。充滿核輻射、物資極度匱乏的的世界,變異人、輻射獸、恐龍等生物橫行,已經(jīng)進(jìn)化出智慧是什么__。
十本征服眾多讀者的精品網(wǎng)文,都是很不錯(cuò)的小說(shuō),看完果斷收藏!
一本東方玄幻類網(wǎng)絡(luò)小說(shuō),浩瀚的世界重新煥發(fā)生機(jī),遠(yuǎn)去的神魔即將歸來(lái)_?;A(chǔ)劇情介紹:主角穿越到架空朝代大明的邊陲黑山城,這是一座獄城,而他為了生活成了看守庫(kù)房的衙役,他挺崩潰的,將自己帶到此界的‘鼎’這個(gè)金手指開(kāi)啟需要能量,能量的來(lái)源居然是泥土、石頭,為此他吃了一年的石頭,要多慘有多慘,好在今天好了吧!
來(lái)源:紅網(wǎng)
作者:屈念蕾
編輯:巢哲圣
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。