近期,隨著OpenAI-o1/o3和Deepseek-R1的成功,基于強(qiáng)化學(xué)習(xí)的微調(diào)方法(R1-Style)在AI領(lǐng)域引起廣泛關(guān)注。這些方法在數(shù)學(xué)推理和代碼智能方面展現(xiàn)出色表現(xiàn),但在通用多模態(tài)數(shù)據(jù)上的應(yīng)用研究仍有待深入。
DocTron團(tuán)隊(duì)提出的Chart-R1模型在這一背景下應(yīng)運(yùn)而生,針對圖表這一信息密集型多模態(tài)數(shù)據(jù)類型,開發(fā)出一套思維鏈監(jiān)督和強(qiáng)化的圖表推理方法,通過逐步驟的思維鏈監(jiān)督和數(shù)值敏感的強(qiáng)化學(xué)習(xí)微調(diào)實(shí)現(xiàn)復(fù)雜圖表推理能力。圖表分析不僅需要視覺理解,還需要進(jìn)行多步驟的數(shù)值推理和關(guān)系分析,因此這項(xiàng)工作的重要性不言而喻。
DocTron是一個(gè)在通用視覺語言模型架構(gòu)上實(shí)現(xiàn)結(jié)構(gòu)化內(nèi)容解析和理解的開源項(xiàng)目,而無需定制化的模塊開發(fā),覆蓋通用文檔、學(xué)科公式、圖表代碼等場景。
論文標(biāo)題:Chart-R1:Chain-of-ThoughtSupervisionandReinforcementforAdvancedChartReasoner論文鏈接:https://arxiv.org/pdf/2507.15509Github鏈接:https://github.com/DocTron-hub/Chart-R1項(xiàng)目開源地址:https://huggingface.co/DocTron
創(chuàng)新點(diǎn)與技術(shù)突破
Chart-R1的核心創(chuàng)新在于其兩階段訓(xùn)練策略和高質(zhì)量數(shù)據(jù)合成方法
1.程序化數(shù)據(jù)合成技術(shù)
研究團(tuán)隊(duì)開發(fā)了一種新穎的程序化數(shù)據(jù)合成技術(shù),利用LLM生成圖表繪制代碼,并基于這些代碼構(gòu)建復(fù)雜問題、多步驟思維鏈推理過程和最終答案。
這種方法生成了覆蓋單圖表和多子圖表的高質(zhì)量推理數(shù)據(jù),構(gòu)建了包含258k多步推理樣本的ChartRQA數(shù)據(jù)集。與現(xiàn)有方法相比,該技術(shù)避免了有損解析過程,確保了數(shù)據(jù)的多樣性和真實(shí)性。
2.兩階段訓(xùn)練策略
Chart-COT階段:通過思維鏈監(jiān)督,訓(xùn)練模型將復(fù)雜圖表推理任務(wù)分解為細(xì)粒度、可理解的子任務(wù);Chart-RFT階段:采用數(shù)值敏感的強(qiáng)化學(xué)習(xí)微調(diào),使用群組相對策略優(yōu)化(GRPO),獎(jiǎng)勵(lì)信號結(jié)合軟匹配和編輯距離,專門針對數(shù)值和字符串答案提高準(zhǔn)確性。
這種兩階段策略的獨(dú)特之處在于為兩個(gè)階段使用不同的數(shù)據(jù)集,避免了在強(qiáng)化學(xué)習(xí)過程中模型探索能力的受損。
實(shí)驗(yàn)結(jié)果與性能表現(xiàn)
實(shí)驗(yàn)結(jié)果令人矚目:Chart-R1在各種公開基準(zhǔn)測試和自建的ChartRQA數(shù)據(jù)集上表現(xiàn)卓越,不僅超越了現(xiàn)有的圖表領(lǐng)域方法,甚至在多個(gè)任務(wù)上媲美GPT-4o和Claude-3.5等閉源大型模型。
在復(fù)雜圖表推理任務(wù)上,現(xiàn)有視覺語言模型的性能大幅下降,而Chart-R1依然保持穩(wěn)定的高水平表現(xiàn),這充分證明了該方法在復(fù)雜推理任務(wù)上的優(yōu)越性
研究意義與應(yīng)用前景
該研究不僅在技術(shù)上取得了突破,也為圖表理解和推理領(lǐng)域提供了新的研究方向:
證明了強(qiáng)化學(xué)習(xí)在視覺多模態(tài)推理任務(wù)中的有效性,特別是針對需要精確數(shù)值推理的場景;提出的程序化數(shù)據(jù)合成方法為解決多模態(tài)數(shù)據(jù)稀缺問題提供了新思路;兩階段訓(xùn)練策略為構(gòu)建高效推理模型提供了實(shí)用框架。
在實(shí)際應(yīng)用方面,Chart-R1可廣泛應(yīng)用于商業(yè)智能分析、科學(xué)研究數(shù)據(jù)解讀、金融報(bào)告分析等需要深度圖表理解的場景,大幅提升自動(dòng)化分析效率。
結(jié)論
Chart-R1的成功表明,通過精心設(shè)計(jì)的訓(xùn)練策略和高質(zhì)量數(shù)據(jù),即使是參數(shù)規(guī)模相對較小的模型也能在特定領(lǐng)域達(dá)到與大型閉源模型相媲美的性能。這一研究為構(gòu)建高效、專業(yè)的領(lǐng)域特定AI模型提供了寶貴經(jīng)驗(yàn),也為未來多模態(tài)推理研究指明了方向。
該工作不僅是對R1-Style方法在多模態(tài)領(lǐng)域有效性的驗(yàn)證,更是對如何構(gòu)建高效專業(yè)領(lǐng)域模型的重要探索,值得學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注。
眾人嘲笑我是贅婿,轉(zhuǎn)身亮明身份卻是頂尖家族的少爺,皆惶恐求原諒
所有人都用不可思議的眼神看著葉辰。這個(gè)上門女婿,膽子也太大了吧?老太太過壽,他非但沒準(zhǔn)備任何禮物,竟然還敢獅子大開囗,問老太太借一百萬?三年前,尚在人世的蕭老爺子,不知道從哪找來葉辰,非要將長孫女蕭初然嫁給他,而當(dāng)時(shí)的葉辰身無分文,簡直就跟個(gè)乞丐沒什么兩樣。兩人結(jié)婚之后,老爺子撒手人寰,自打那時(shí)候起,蕭家人就有幫助請點(diǎn)贊。 他們兄妹倆,一直對各方面都優(yōu)于他們的蕭初然有很大意見,所以最喜歡抓住機(jī)會(huì)譏諷葉辰-。一旁的蕭初然表情有些尷尬,說:“奶奶,葉辰他八歲就沒了父親,是福利院的李阿姨把他拉扯大的,他想報(bào)恩也是出于一顆感恩的心,還請您幫幫他吧……”蕭老太太黑著臉道:“讓我?guī)退??好啊,除非你跟他離婚,然后嫁給張到此結(jié)束了?。老婆升職宴上請不動(dòng)大佬,誰知老公就是帝豪董事長,全場驚呆!