曾佑?xùn)|
近期,隨著OpenAI-o1/o3和Deepseek-R1的成功,基于強(qiáng)化學(xué)習(xí)的微調(diào)方法(R1-Style)在AI領(lǐng)域引起廣泛關(guān)注。這些方法在數(shù)學(xué)推理和代碼智能方面展現(xiàn)出色表現(xiàn),但在通用多模態(tài)數(shù)據(jù)上的應(yīng)用研究仍有待深入。
DocTron團(tuán)隊(duì)提出的Chart-R1模型在這一背景下應(yīng)運(yùn)而生,針對圖表這一信息密集型多模態(tài)數(shù)據(jù)類型,開發(fā)出一套思維鏈監(jiān)督和強(qiáng)化的圖表推理方法,通過逐步驟的思維鏈監(jiān)督和數(shù)值敏感的強(qiáng)化學(xué)習(xí)微調(diào)實(shí)現(xiàn)復(fù)雜圖表推理能力。圖表分析不僅需要視覺理解,還需要進(jìn)行多步驟的數(shù)值推理和關(guān)系分析,因此這項(xiàng)工作的重要性不言而喻。
DocTron是一個在通用視覺語言模型架構(gòu)上實(shí)現(xiàn)結(jié)構(gòu)化內(nèi)容解析和理解的開源項(xiàng)目,而無需定制化的模塊開發(fā),覆蓋通用文檔、學(xué)科公式、圖表代碼等場景。
論文標(biāo)題:Chart-R1:Chain-of-ThoughtSupervisionandReinforcementforAdvancedChartReasoner
Github鏈接:https://github.com/DocTron-hub/Chart-R1
項(xiàng)目開源地址:https://huggingface.co/DocTron
創(chuàng)新點(diǎn)與技術(shù)突破
Chart-R1的核心創(chuàng)新在于其兩階段訓(xùn)練策略和高質(zhì)量數(shù)據(jù)合成方法:
1.程序化數(shù)據(jù)合成技術(shù):
研究團(tuán)隊(duì)開發(fā)了一種新穎的程序化數(shù)據(jù)合成技術(shù),利用LLM生成圖表繪制代碼,并基于這些代碼構(gòu)建復(fù)雜問題、多步驟思維鏈推理過程和最終答案。
這種方法生成了覆蓋單圖表和多子圖表的高質(zhì)量推理數(shù)據(jù),構(gòu)建了包含258k多步推理樣本的ChartRQA數(shù)據(jù)集。與現(xiàn)有方法相比,該技術(shù)避免了有損解析過程,確保了數(shù)據(jù)的多樣性和真實(shí)性。
2.兩階段訓(xùn)練策略:
Chart-COT階段:通過思維鏈監(jiān)督,訓(xùn)練模型將復(fù)雜圖表推理任務(wù)分解為細(xì)粒度、可理解的子任務(wù);
Chart-RFT階段:采用數(shù)值敏感的強(qiáng)化學(xué)習(xí)微調(diào),使用群組相對策略優(yōu)化(GRPO),獎勵信號結(jié)合軟匹配和編輯距離,專門針對數(shù)值和字符串答案提高準(zhǔn)確性。
這種兩階段策略的獨(dú)特之處在于為兩個階段使用不同的數(shù)據(jù)集,避免了在強(qiáng)化學(xué)習(xí)過程中模型探索能力的受損。
實(shí)驗(yàn)結(jié)果與性能表現(xiàn)
實(shí)驗(yàn)結(jié)果令人矚目:Chart-R1在各種公開基準(zhǔn)測試和自建的ChartRQA數(shù)據(jù)集上表現(xiàn)卓越,不僅超越了現(xiàn)有的圖表領(lǐng)域方法,甚至在多個任務(wù)上媲美GPT-4o和Claude-3.5等閉源大型模型。
在復(fù)雜圖表推理任務(wù)上,現(xiàn)有視覺語言模型的性能大幅下降,而Chart-R1依然保持穩(wěn)定的高水平表現(xiàn),這充分證明了該方法在復(fù)雜推理任務(wù)上的優(yōu)越性。
研究意義與應(yīng)用前景
該研究不僅在技術(shù)上取得了突破,也為圖表理解和推理領(lǐng)域提供了新的研究方向:
證明了強(qiáng)化學(xué)習(xí)在視覺多模態(tài)推理任務(wù)中的有效性,特別是針對需要精確數(shù)值推理的場景;
提出的程序化數(shù)據(jù)合成方法為解決多模態(tài)數(shù)據(jù)稀缺問題提供了新思路;
兩階段訓(xùn)練策略為構(gòu)建高效推理模型提供了實(shí)用框架。
在實(shí)際應(yīng)用方面,Chart-R1可廣泛應(yīng)用于商業(yè)智能分析、科學(xué)研究數(shù)據(jù)解讀、金融報(bào)告分析等需要深度圖表理解的場景,大幅提升自動化分析效率。
結(jié)論
Chart-R1的成功表明,通過精心設(shè)計(jì)的訓(xùn)練策略和高質(zhì)量數(shù)據(jù),即使是參數(shù)規(guī)模相對較小的模型也能在特定領(lǐng)域達(dá)到與大型閉源模型相媲美的性能。這一研究為構(gòu)建高效、專業(yè)的領(lǐng)域特定AI模型提供了寶貴經(jīng)驗(yàn),也為未來多模態(tài)推理研究指明了方向。
該工作不僅是對R1-Style方法在多模態(tài)領(lǐng)域有效性的驗(yàn)證,更是對如何構(gòu)建高效專業(yè)領(lǐng)域模型的重要探索,值得學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注。
懸疑丨身臨其境的錯覺,相信你會愛上她《最后一個女?dāng)繆y師》
影片英文名將“破地獄”的儀式,比作“Last Dance(最后一舞)”。在片中,這的確是女兒了卻父親遺愿執(zhí)事的“最后一舞”-。但在故事之外,因這份愛與深情的加持,它絕不會是黃子華與許冠文的最后一舞,更不會是香港電影的最后一舞。來源:文匯報(bào)
特別推薦潛力好書《最后一個女?dāng)繆y師》,甜蜜橋段讓你入坑不后悔!
在2016年的時候,女導(dǎo)演安娜·比勒以女性獨(dú)特的視角,拍攝了這么一部情YU邪典片,這里面不僅讓人看到了邪典電影其特有的怪異一面,也在正因?yàn)閷?dǎo)演是一位女士,影片里居然還有十分唯美的元素在——。影片講述了一個關(guān)于女巫愛蓮的故事,但是這個女巫和我們印象中的那些不一樣,沒有高高的尖帽,也沒有長長的鼻子,更沒是什么_|。
女生必看 從《裁縫》的電影學(xué)習(xí)時裝及妝容 土妞如何驚為天人
造型師在設(shè)計(jì)禮服時,刻意保留了片中詹周氏圍裙的褶皺元素;化妝團(tuán)隊(duì)將法庭戲的煙熏妝適度改良為紅毯版本;甚至紅毯行走的步伐節(jié)奏,都經(jīng)過排練以匹配片中角色的性格特質(zhì)————。這種全方位的細(xì)節(jié)把控,使得紅毯亮相本身成為電影的"視覺預(yù)告片"。社交媒體上的話題設(shè)置更見功力_。從"章子怡短發(fā)造型" 到"詹周氏原型故事",再好了吧!
來源:紅網(wǎng)
作者:允曼妮
編輯:洪妮娜
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。