魚羊發(fā)自紐凹非寺量子位|公眾號QbitAI
又到了一年一度“中國AI春晚”WAIC,各家大廠動作頻發(fā)的時候。
今年會有哪些看點?你別說,我們還真在扒論文的過程中,發(fā)現(xiàn)了一些熱乎線索。
比如螞蟻數(shù)科的金融推理大模型,發(fā)布會還沒開,技術(shù)論文已悄咪咪上線。
金融領(lǐng)域的推理大模型,你可以理解為金融領(lǐng)域的DeepSeek,帶著SOTA的刷榜成績來了。
同樣是“杭州”背景科技公司,螞蟻數(shù)科。
不僅在各項金融測評集上刷新SOTA,在MATH、GPQA等通用推理基準(zhǔn)中,也有比肩DeepSeekR1,GPT-o1等超大尺寸推理模型的水平。
而且論文也把技術(shù)細節(jié)全部公開講清楚了。
嘿嘿嘿,留給螞蟻數(shù)科自己發(fā)布會上當(dāng)新聞來講的東西,不多了。
模型出廠即專家
新模型名為Agentar-Fin-R1,一共有兩個不同參數(shù)版本:8B和32B。
螞蟻數(shù)科的研究出發(fā)點很務(wù)實,就是要突破大模型應(yīng)用在實際金融業(yè)務(wù)場景中遇到的行業(yè)問題。
與通用場景不同,金融應(yīng)用在數(shù)據(jù)、幻覺和合規(guī)方面,有著更嚴(yán)苛的要求。核心面臨的挑戰(zhàn)有三點:
金融問題的復(fù)雜性:涉及法規(guī)、風(fēng)險和實時數(shù)據(jù),AI系統(tǒng)必須具備快速學(xué)習(xí)和適應(yīng)的能力。通用大模型雖然會推理,但對專業(yè)術(shù)語、監(jiān)管細節(jié)常常“一臉懵”??尚哦群涂山忉屝裕航鹑跊Q策關(guān)乎重大利益,出錯代價高。每一個推理步驟都必須透明可審計,確保決策過程的可信度和可解釋性。金融大模型評測集:業(yè)界缺少圍繞真實金融業(yè)務(wù)場景,驗證復(fù)雜任務(wù)推理、智能體應(yīng)用等關(guān)鍵能力的金融大模型評測集。
針對于此,Agentar-Fin-R1基于Qwen3,從數(shù)據(jù)采集、訓(xùn)練框架、任務(wù)分類等角度出發(fā),實現(xiàn)了針對金融任務(wù)的深度優(yōu)化。
從效果上來看,首先,Agentar-Fin-R1在所有金融評測基準(zhǔn)上——包括Fineva、FinEval、FinanceIQ和螞蟻數(shù)科全新提出的Finova——均達到業(yè)界最優(yōu)水平,超越業(yè)界開源金融大模型,也包括GPT-o1、DeepSeek-R1等超大尺寸通用推理模型。
還做到了兼顧專業(yè)與通用,在實現(xiàn)金融專業(yè)化的同時,通用推理能力沒有明顯損失。
△Agentar-Fin-R1與Qwen3的對比
具體實現(xiàn)方法主要包括以下創(chuàng)新:
更專業(yè)全面的金融數(shù)據(jù)標(biāo)簽體系,讓模型“出廠即專家”;更高效的加權(quán)訓(xùn)練算法,大幅降低大模型應(yīng)用門檻;模型能力結(jié)合真實業(yè)務(wù)場景自主進化
我們逐一詳細拆解。
更專業(yè)的金融任務(wù)數(shù)據(jù)標(biāo)簽體系
首先,訓(xùn)練行業(yè)大模型需要對行業(yè)知識進行系統(tǒng)化的學(xué)習(xí),
針對金融任務(wù)紛繁復(fù)雜的實際情況,螞蟻數(shù)科團隊構(gòu)建了精細化的金融任務(wù)分類體系,覆蓋銀行、證券、保險、基金、信托等全場景。并將復(fù)雜的金融領(lǐng)域任務(wù)分解為精準(zhǔn)定義的類別,比如“意圖識別”、“風(fēng)險評估”、“合規(guī)檢查”等等。
基于千億級金融專業(yè)數(shù)據(jù)語料,再經(jīng)過專門設(shè)計的可信數(shù)據(jù)合成和CoT數(shù)據(jù)精標(biāo),構(gòu)建了迄今已知最專業(yè)最全面的金融領(lǐng)域訓(xùn)練數(shù)據(jù)集。
這樣做的好處是,相當(dāng)于打造了一個“課程大綱”,來作為整個開發(fā)流程的指導(dǎo)框架。
不僅能指導(dǎo)數(shù)據(jù)處理和訓(xùn)練工作流,還實現(xiàn)了系統(tǒng)化的任務(wù)向?qū)?yōu)化,確保金融推理場景的全面覆蓋。
多維度可信保障
以此為框架,對于垂直領(lǐng)域模型,最為關(guān)鍵的數(shù)據(jù)如何獲???
螞蟻數(shù)科團隊通過三個層次來確保數(shù)據(jù)的高質(zhì)量。
首先,是源頭可信。背靠螞蟻在金融領(lǐng)域的長期積累以及真實數(shù)據(jù),構(gòu)建專業(yè)全面的金融領(lǐng)域訓(xùn)練數(shù)據(jù)集,并供下游進行可信的數(shù)據(jù)合成。
其次,是合成可信。引入可驗證的雙軌多智能體協(xié)作數(shù)據(jù)合成框架,也就是讓多個AI智能體相互討論相互審核,來保證合成數(shù)據(jù)質(zhì)量。
最后,治理可信。通過人工抽樣標(biāo)注,基于自研獎勵模型的打分過濾,去重、去污、去毒等全面數(shù)據(jù)處理,保證數(shù)據(jù)安全。
高效訓(xùn)練優(yōu)化
訓(xùn)練方面,螞蟻數(shù)科團隊創(chuàng)新采用“加權(quán)訓(xùn)練”,以最大化提升數(shù)據(jù)利用效率及訓(xùn)練效率。
簡單來說,就是動態(tài)分配訓(xùn)練資源,讓模型在較難的任務(wù)上多投入精力學(xué),在簡單任務(wù)上少花精力。
具體到數(shù)據(jù)效率方面,是通過難度感知加權(quán)訓(xùn)練框架來挖掘數(shù)據(jù)潛力,結(jié)合標(biāo)簽引導(dǎo)合成和智能選擇提升數(shù)據(jù)利用率。
在訓(xùn)練效率方面,則采用兩階段訓(xùn)練策略:
第一階段,先進行知識全面注入,讓模型把金融知識吃透;第二階段,專挑最難、最弱的題目用強化學(xué)習(xí)+目標(biāo)微調(diào),強化模型復(fù)雜推理能力。
除此之外,研究團隊還構(gòu)建了全面的歸因系統(tǒng),實現(xiàn)快速瓶頸識別和針對性改進。
相較于傳統(tǒng)的SFT和RL,這種高效訓(xùn)練優(yōu)化策略不僅能夠縮短模型迭代周期、降低計算成本,更重要的是能夠快速響應(yīng)金融市場的動態(tài)變化,確保模型在風(fēng)險控制、投資決策、合規(guī)監(jiān)管等真實業(yè)務(wù)場景中,及時部署,自主“進化”。
同時,這也是模型保留通用能力的關(guān)鍵所在。
Finova:更嚴(yán)苛的評估標(biāo)準(zhǔn)
值得關(guān)注的一點是,這次螞蟻數(shù)科不僅是在提升模型能力上下了功夫。為了驗證模型在真實場景中的有效性,他們還在“考試題目”上下了功夫。
前文提到,在這項研究中,螞蟻數(shù)科自己提出了一個新的評測基準(zhǔn)Finova。
為什么要提新標(biāo)準(zhǔn)?原因很簡單:現(xiàn)有的金融測評集,太簡單了。
就像對于通用模型,人類專家們絞盡腦汁設(shè)置“人類最后的考試”,極限考驗頂尖模型的性能,螞蟻數(shù)科也希望在金融領(lǐng)域,能面向?qū)嶋H部署,更準(zhǔn)確地評估模型的真實效用。
具體來說,F(xiàn)inova是從智能體執(zhí)行任務(wù)能力、復(fù)雜推理能力、安全合規(guī)能力這三個真實場景中最受關(guān)注的維度,來對模型進行考察,共包含1350道金融難題。
智能體能力評估
從實際業(yè)務(wù)需求出發(fā),標(biāo)準(zhǔn)化評估金融智能體的核心能力:
金融意圖檢測:精準(zhǔn)識別投資咨詢、產(chǎn)品詢問、風(fēng)險評估等復(fù)雜金融場景中的用戶真實需求金融槽位識別:準(zhǔn)確抽取和結(jié)構(gòu)化“萬能險”、“科創(chuàng)板”等專業(yè)金融術(shù)語,構(gòu)建金融文本理解基礎(chǔ)金融工具規(guī)劃:智能解析用戶需求并推薦匹配的金融工具,如投資組合分析、基金對比等金融表達生成:基于多種來源的數(shù)據(jù)源綜合生成準(zhǔn)確可靠、嚴(yán)格符合監(jiān)管要求的專業(yè)金融表達
舉個例子,面對“能告訴我瑞士法郎兌加元現(xiàn)在報價多少,近期加元為什么跌得這么兇”這樣的問題,模型理解用戶意圖為對“外匯”進行信息查詢+分析解讀,識別“瑞士法郎”、“加元”等槽位,調(diào)用相應(yīng)查詢工具,最后綜合多種信息源生成回答。
復(fù)雜推理能力
深度整合金融數(shù)學(xué)計算、代碼理解和多步驟復(fù)雜邏輯推理,模擬真實金融決策場景:
涵蓋資產(chǎn)估值、投資組合優(yōu)化、風(fēng)險分析等核心金融業(yè)務(wù);考驗?zāi)P驮跉v史數(shù)據(jù)分析、結(jié)果預(yù)測、復(fù)雜場景推理等方面的綜合表現(xiàn)。
在這方面,感受一下,F(xiàn)inova的真題如下:
某工業(yè)公司2024年4月的財務(wù)數(shù)據(jù)顯示:邊際貢獻總額為$60,000,凈利潤為$25,000。預(yù)計5月份銷售量將同比增長5%,假設(shè)公司成本結(jié)構(gòu)和固定成本保持不變。則該公司在此期間的經(jīng)營杠桿系數(shù)(DOL)為__,對應(yīng)的凈利潤預(yù)期增幅為__%(結(jié)果分別保留一位小數(shù)和整數(shù)位)。
安全合規(guī)驗證
安全防護方面,識別和防范惡意輸入、數(shù)據(jù)泄露、系統(tǒng)濫用等安全威脅。
合規(guī)監(jiān)管方面,深度理解反洗錢法規(guī)、數(shù)據(jù)隱私保護、投資者保護、風(fēng)險披露等多元化監(jiān)管框架。
可以看到,在Finova這個新基準(zhǔn)下,參與測試的模型評分相較于其他基準(zhǔn)都有明顯的下降,甚至得分幾乎砍半。
其中,螞蟻數(shù)科的Agentar-Fin-R1-32B達到了最高的69.93分,大幅超越了同尺寸金融推理大模型Dianjin-R1-32B(56.02分),也超越了超大尺寸推理模型DeepSeek-R1(61.28分)和GPT-o1(60.46分)。
這進一步凸顯了垂直領(lǐng)域模型在特定任務(wù)中的顯著優(yōu)勢。
螞蟻數(shù)科SOTA意外嗎?
從實驗結(jié)果可以看出,Agentar-Fin-R1這樣的垂直模型,是行業(yè)賽道中的“隱藏王牌”,在實際應(yīng)用場景中往往能比通用模型更快落地、發(fā)揮作用。
這也是為什么——是螞蟻數(shù)科帶來了這次最新的金融行業(yè)SOTA模型。
有必然性,基因就在那里。作為螞蟻集團的科技商業(yè)化獨立板塊,螞蟻數(shù)科長期浸潤一線,天然具備對金融場景更深度的行業(yè)理解和數(shù)據(jù)積累。
并且從2017年起,螞蟻數(shù)科已經(jīng)布局AI,致力于以AI技術(shù)深度重構(gòu)企業(yè)核心場景。
目前,在金融領(lǐng)域,螞蟻數(shù)科累計已服務(wù)100%國有股份制銀行,超60%城商行,以及數(shù)百家金融機構(gòu),支持金融業(yè)的高效數(shù)智化轉(zhuǎn)型。
也有順勢而為的準(zhǔn)確趨勢判斷。
實際上,作為螞蟻數(shù)科的企業(yè)級智能體服務(wù)品牌,Agentar已經(jīng)成為螞蟻集團在金融領(lǐng)域AI實踐的一個經(jīng)驗輸出窗口。
Agentar鏈接數(shù)百個金融MCP,為金融機構(gòu)規(guī)模化應(yīng)用大模型提供強大的數(shù)據(jù)生態(tài),并已聯(lián)合金融行業(yè)機構(gòu)推出超百個金融智能體解決方案,覆蓋銀行、證券、保險、通用金融等四大領(lǐng)域,能提升一線員工工作效率超80%。
現(xiàn)在,新模型出爐,可以說是螞蟻數(shù)科本身行業(yè)洞察+數(shù)據(jù)積累+AI能力的一次集中體現(xiàn)。
當(dāng)然啦,技術(shù)論文實現(xiàn)SOTA之外,作為模型和產(chǎn)品,更重要的還是實際應(yīng)用表現(xiàn)。
建議螞蟻數(shù)科的朋友,發(fā)布會多講講這方面的。
論文和性能成績,我們已經(jīng)替你們搶跑了喲~
論文地址:https://arxiv.org/abs/2507.16802
—完—
《龍飛鳳仵》中套路滿滿的章節(jié),相愛相殺看不夠!
今日推薦:《龍飛鳳仵》作者:莫風(fēng)流。點擊文末超鏈接開始觀看吧~126惡心死你(三更)他們講究,人盡皆知。這種事,可別當(dāng)著他的面殺個人,讓他趁地打個滾兒刺激大很多?!拔簯c這事也太巧合了|?!标@風(fēng)道。趙熠想到宋世安那張討人厭的臉:“我越是不信,那人是宋世安?!薄斑@世上,只有那混賬女人,能做出這種事——?!彼銣?zhǔn)了他來,然后等在這里用這 《龍飛鳳仵》白月光男神x寶藏女孩,有一個24孝老公是什么體驗今日推薦:《龍飛鳳仵》作者:莫風(fēng)流_。點擊文末超鏈接開始觀看吧~053張網(wǎng)的人(一更)段毅和喬四松了口氣,兩人迅速跑去外院,在那棵木棉樹下鼓搗了一會兒,才收拾妥當(dāng)出了院子_——。兩人直奔衙門,沈聞余和宋寧已經(jīng)回來,四人將信息交換了一遍,段毅憂心道等我繼續(xù)說。言情小說《龍飛鳳仵》為什么能撩到常年單身的你??女生小說研究所