理想 i8 售價 32.18-36.98 萬元,全系標(biāo)配雙電機(jī)四驅(qū)、激光雷達(dá)和零重力座椅,性價比如何?
智東西作者王涵編輯漠影
智東西7月28日報道,今天上午,螞蟻數(shù)科正式發(fā)布螞蟻數(shù)科金融推理大模型Agentar-Fin-R1。該模型基于Qwen3研發(fā),在FinEval1.0、FinanceIQ等金融大模型評測基準(zhǔn)上超越DeepSeek-R1等同尺寸開源通用大模型以及金融大模型。
Agentar-Fin-R1包括32B和8B參數(shù)兩個版本,還有非推理版本的14B和72B參數(shù)大模型,以滿足金融機(jī)構(gòu)在多樣化場景下的部署需求。此外,螞蟻數(shù)科還推出基于百靈大模型的MoE(混合專家)架構(gòu)模型,獲得更優(yōu)推理速度。
同時,螞蟻數(shù)科還開源了大模型金融應(yīng)用評測基準(zhǔn)Finova以及Agentar-Deepfinance-100K金融領(lǐng)域訓(xùn)練數(shù)據(jù)集。
一、螞蟻數(shù)科用3個特點(diǎn)登頂權(quán)威榜單,超越同類金融大模型
螞蟻數(shù)科首席技術(shù)官王維介紹,Agentar-Fin-R1主要有“可靠、可控、可優(yōu)化”的三大特點(diǎn):
首先是“可靠”,王維認(rèn)為,行業(yè)大模型需要構(gòu)建系統(tǒng)化專業(yè)化的金融任務(wù)體系。
為此,Agentar-Fin-R1打造了6大類66小類的金融任務(wù)體系,覆蓋銀行、證券、保險、基金、信托等金融全場景。圍繞這一體系,通過可信的數(shù)據(jù)合成和長思維鏈的精標(biāo)鏈路,從場景數(shù)據(jù)出發(fā),螞蟻數(shù)科構(gòu)建了100K的大規(guī)模訓(xùn)練集。
基于任務(wù)體系和大規(guī)模數(shù)據(jù)訓(xùn)練集,Agentar-Fin-R1在激活能力上和Qwen和DeepSeek等通用大模型旗鼓相當(dāng)。在金融推理能力上,該模型在FinEval1.0、FinancelQ以及Finova等金融榜單中,超越超越DeepSeek-R1等同尺寸開源通用大模型以及金融大模型。
在“可控”方面,王維介紹,在訓(xùn)練金融大模型的過程中,該模型以金融任務(wù)體系為靶點(diǎn),結(jié)合主動學(xué)習(xí)的實踐,通過自動識別模型的薄弱項,可以有針對的合成數(shù)據(jù)、動態(tài)調(diào)節(jié),在提升訓(xùn)練效率的前提下,避免了大規(guī)模的遺忘。
Agentar-Fin-R1僅用不到一半的數(shù)據(jù)達(dá)成了更優(yōu)的模型能力,在多任務(wù)的均衡訓(xùn)練中,該模型能夠極大地降低微調(diào)階段需要的數(shù)據(jù)和算力,實現(xiàn)較高的遷移效率。
此外,Agentar-Fin-R1還將不斷進(jìn)化。螞蟻數(shù)科首席技術(shù)官王維認(rèn)為,行業(yè)模型應(yīng)該建立高頻的敏捷的迭代機(jī)制,讓模型能夠持續(xù)發(fā)現(xiàn)模型的問題和缺陷,進(jìn)行快速修復(fù)。
這背后需要兩個方面的努力,一是密切關(guān)注實際數(shù)據(jù),定位模型表現(xiàn);另一方面就是緊密追蹤金融動態(tài),市場調(diào)整以及產(chǎn)業(yè)機(jī)構(gòu)和產(chǎn)品的變化。
最終,螞蟻數(shù)科將通過訓(xùn)練和評測聯(lián)動以及高效生成的訓(xùn)練數(shù)據(jù),驅(qū)動模型進(jìn)化,使Agentar-Fin-R1更加貼合金融業(yè)務(wù)需要。
二、全面開源金融基準(zhǔn)測試集,聯(lián)合五大機(jī)構(gòu)發(fā)布
除此之外,螞蟻數(shù)科還聯(lián)合中國工商銀行、寧波銀行、北京前沿金融監(jiān)管科技研究院、上海人工智能行業(yè)協(xié)會等機(jī)構(gòu),推出大模型金融應(yīng)用評測基準(zhǔn)Finova。
Finova是針對復(fù)雜推理任務(wù)和金融智能體任務(wù)的評測任務(wù)集,涵蓋意圖識別、工具調(diào)用和結(jié)構(gòu)化表現(xiàn)等金融行業(yè)全方位測評的各個環(huán)節(jié)。
據(jù)介紹,螞蟻數(shù)科還首創(chuàng)了高復(fù)雜度的金融推理問題庫,該數(shù)據(jù)庫來源于螞蟻積累的多年的真實業(yè)務(wù)數(shù)據(jù),經(jīng)過5000萬道問題和人工篩選,再配合長思維鏈的精標(biāo)鏈路,形成了一套全面評估真實業(yè)務(wù)能力的評測集。
此外,螞蟻數(shù)科還將Agentar-Deepfinance-100K大規(guī)模金融領(lǐng)域訓(xùn)練數(shù)據(jù)集全面開源。
結(jié)語:金融與AI深度融合,步入“垂直專用”深水區(qū)
螞蟻數(shù)科CEO趙聞彪說到,AI智能體產(chǎn)業(yè)價值釋放的關(guān)鍵在于“水平通用”向“垂直專用”的戰(zhàn)略轉(zhuǎn)變。
此次Agentar-Fin-R1的推出,以及Finova評測基準(zhǔn)和Agentar-Deepfinance-100K數(shù)據(jù)集的開源,正是這一轉(zhuǎn)變在金融領(lǐng)域的具體實踐。
隨著人工智能技術(shù)的不斷發(fā)展,金融機(jī)構(gòu)對大模型的需求日益精細(xì)化,從最初在客服、辦公等場景的淺層次應(yīng)用,逐步深入到風(fēng)控、財富管理、信貸審批等核心業(yè)務(wù)流程。
然而,在實際推廣和應(yīng)用過程中,如何確保模型在不同金融機(jī)構(gòu)的業(yè)務(wù)環(huán)境中穩(wěn)定運(yùn)行,如何平衡模型性能與數(shù)據(jù)安全保護(hù)之間的關(guān)系等等挑戰(zhàn),依舊需要AI企業(yè)與金融機(jī)構(gòu)共同解決。