機(jī)器之心發(fā)布
機(jī)器之心編輯部
7月26日,在WAIC2025世界人工智能大會(huì)上,中國移動(dòng)九天人工智能研究院全面開源九天結(jié)構(gòu)化數(shù)據(jù)大模型“數(shù)據(jù)-模型-測評(píng)”三位一體的完整模型體系,包括了結(jié)構(gòu)化數(shù)據(jù)體系、TReB標(biāo)準(zhǔn)化測評(píng)框架、支持微調(diào)及推理全流程模型
中國移動(dòng)希望通過開源共享,降低結(jié)構(gòu)化數(shù)據(jù)智能應(yīng)用的技術(shù)門檻與研發(fā)成本,助力結(jié)構(gòu)化數(shù)據(jù)大模型的行業(yè)演進(jìn),推動(dòng)行業(yè)形成協(xié)同創(chuàng)新生態(tài),讓結(jié)構(gòu)化數(shù)據(jù)價(jià)值在千行百業(yè)高效釋放。
全方位、多維度、深層次結(jié)構(gòu)化數(shù)據(jù)體系
表格數(shù)據(jù)以其結(jié)構(gòu)化、緊湊的特性,承載著海量關(guān)鍵數(shù)據(jù),是結(jié)構(gòu)化數(shù)據(jù)大模型的核心訓(xùn)推數(shù)據(jù)。
為了支撐模型在表格推理任務(wù)上的性能提升,中國移動(dòng)九天人工智能研究院首創(chuàng)搭建面向表格數(shù)據(jù)的全方位多維度深層次數(shù)據(jù)體系?;诒砀衲芰θ采w、各能力獨(dú)立不交叉原則,通過開源表格數(shù)據(jù)收集、實(shí)際網(wǎng)絡(luò)表格爬取和特定領(lǐng)域復(fù)雜表格定制等手段,重新整合吸納多源數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗、質(zhì)量判定、全流程多階段數(shù)據(jù)篩查,最終形成了涵蓋表格推理6大能力和34項(xiàng)子任務(wù)的千萬級(jí)數(shù)據(jù)體系
具體來說,中國移動(dòng)收集和整理了39個(gè)公開數(shù)據(jù)集和一部分真實(shí)的互聯(lián)網(wǎng)數(shù)據(jù),包括WebofScience、Wiki、GoogleScholar和GitHub等,涵蓋了超過300個(gè)不同領(lǐng)域,如通信、氣象、學(xué)術(shù)、制造業(yè)、金融、教育和醫(yī)療等。
除此之外,針對(duì)現(xiàn)有數(shù)據(jù)集中表格格式單一、推理任務(wù)步數(shù)少等問題,中國移動(dòng)基于自研的復(fù)雜推理數(shù)據(jù)集構(gòu)造方案,模擬現(xiàn)實(shí)世界中的復(fù)雜多步表格推理問題,實(shí)現(xiàn)了已有表格推理能力擴(kuò)增,即增加表格高級(jí)數(shù)據(jù)分析能力。
結(jié)構(gòu)化數(shù)據(jù)體系
全面且可靠的開源基準(zhǔn)TReB
中國移動(dòng)將此次開源的結(jié)構(gòu)化數(shù)據(jù)大模型評(píng)測基準(zhǔn)命名為TReB,是由中國移動(dòng)九天人工智能研究院精心打造的綜合性模型評(píng)測體系,旨在全方位、多維度地衡量大模型的表格推理能力。
它主要提供兩個(gè)部分:
全面的數(shù)據(jù)體系,結(jié)合了經(jīng)過清理的公開表格推理數(shù)據(jù)集、真實(shí)的網(wǎng)絡(luò)表格和專有的復(fù)雜數(shù)據(jù),涵蓋表格推理的26項(xiàng)任務(wù),并采用了嚴(yán)格的數(shù)據(jù)清洗流程,保證每一個(gè)表格和問答對(duì)的質(zhì)量;一個(gè)專為評(píng)估大模型在表格推理任務(wù)而設(shè)計(jì)的強(qiáng)大測評(píng)框架。它集成了三種獨(dú)特的思維鏈推理模式和可靠的評(píng)估指標(biāo),從而實(shí)現(xiàn)精準(zhǔn)且多維度的評(píng)估。
目前,TReB的數(shù)據(jù)集已經(jīng)在HuggingFace和Modelscope平臺(tái)上面向全社會(huì)開放,測評(píng)代碼也已經(jīng)在GitHub和Gitee上開源。
HuggingFace地址:https://huggingface.co/datasets/JT-LM/JIUTIAN-TReBModelscope地址:https://modelscope.cn/datasets/JiuTian-AI/JIUTIAN-TReBGitHub地址:https://github.com/JT-LM/jiutian-trebGitee地址:https://gitee.com/CMCC-jiutian/jiutian-treb
TReB開源評(píng)測基準(zhǔn)
打造結(jié)構(gòu)化數(shù)據(jù)智能雙引擎
九天結(jié)構(gòu)化數(shù)據(jù)大模型是在中國移動(dòng)自研的九天基礎(chǔ)語言大模型的基礎(chǔ)上精調(diào)訓(xùn)練而成,專為結(jié)構(gòu)化數(shù)據(jù)智能處理而設(shè)計(jì)優(yōu)化。
中國移動(dòng)九天人工智能研究院此次開源了結(jié)構(gòu)化數(shù)據(jù)大模型的完整模型,涵蓋模型權(quán)重、微調(diào)及推理代碼、技術(shù)報(bào)告等,助力結(jié)構(gòu)化數(shù)據(jù)智能賦能關(guān)鍵行業(yè),推動(dòng)模型能力在各垂直領(lǐng)域規(guī)模化落地。
九天結(jié)構(gòu)化數(shù)據(jù)大模型完全基于國產(chǎn)GPU集群進(jìn)行訓(xùn)練、推理,具備多表關(guān)聯(lián)分析、可交互式可視化、智能數(shù)據(jù)大屏生成等智能數(shù)據(jù)分析功能,真正實(shí)現(xiàn)“讓數(shù)據(jù)說話”。
與語言基礎(chǔ)大模型相比,九天結(jié)構(gòu)化數(shù)據(jù)大模型引入了結(jié)構(gòu)化數(shù)據(jù)感知機(jī)制,能夠深入理解結(jié)構(gòu)化數(shù)據(jù)特點(diǎn),進(jìn)而使模型能夠基于數(shù)據(jù)本質(zhì)進(jìn)行推理建模。
在處理結(jié)構(gòu)化數(shù)據(jù)分析推理任務(wù)時(shí),九天結(jié)構(gòu)化數(shù)據(jù)大模型首次引入面向結(jié)構(gòu)化數(shù)據(jù)的深度思考機(jī)制。該機(jī)制通過深度解析數(shù)據(jù),并模擬人類分析師的遞進(jìn)式推理思維,逐步推導(dǎo)邏輯推理鏈,不僅使模型能深入洞察數(shù)據(jù)本質(zhì)——理解字段間業(yè)務(wù)邏輯、數(shù)據(jù)分布及隱含特性,基于數(shù)據(jù)內(nèi)在“語言”精準(zhǔn)建模,更賦予其駕馭復(fù)雜關(guān)聯(lián)的能力——主動(dòng)分析多表關(guān)聯(lián)邏輯,進(jìn)行多表聯(lián)合推理,這確保面對(duì)多表關(guān)聯(lián)等復(fù)雜任務(wù)時(shí),能結(jié)合數(shù)據(jù)特點(diǎn)進(jìn)行深度推理,生成更精準(zhǔn)、可信的分析代碼與洞察,顯著提升分析的準(zhǔn)確性和可解釋性。
九天結(jié)構(gòu)化數(shù)據(jù)大模型提出了交互閉環(huán)推理架構(gòu),針對(duì)結(jié)構(gòu)化數(shù)據(jù)實(shí)現(xiàn)工作流優(yōu)化。模型推理過程中與沙箱環(huán)境交互聯(lián)動(dòng),通過動(dòng)態(tài)調(diào)用、實(shí)時(shí)反饋的閉環(huán)機(jī)制,實(shí)現(xiàn)數(shù)據(jù)觀察、數(shù)據(jù)分析、代碼生成與執(zhí)行結(jié)果的協(xié)同演進(jìn),極大提升了結(jié)構(gòu)化數(shù)據(jù)分析的準(zhǔn)確性和可解釋性。同時(shí),模型內(nèi)置多智能體協(xié)作機(jī)制,各智能體承擔(dān)專項(xiàng)任務(wù)并不斷優(yōu)化,最終實(shí)現(xiàn)多智能體分工配合、協(xié)同交互,構(gòu)建出類人類專家協(xié)同的數(shù)據(jù)分析流程,賦能結(jié)構(gòu)化數(shù)據(jù)處理更高效、更智能。
結(jié)構(gòu)化數(shù)據(jù)可交互式可視化示例
結(jié)構(gòu)化數(shù)據(jù)看板可視化示例
解鎖高效化、精準(zhǔn)化、可視化的卓越數(shù)據(jù)分析能力
九天結(jié)構(gòu)化數(shù)據(jù)大模型在最新的開源評(píng)測基準(zhǔn)TReB中進(jìn)行測試,結(jié)果如圖所示。TReB包含表格推理的26項(xiàng)任務(wù),可以系統(tǒng)評(píng)估模型在表格理解、表格基礎(chǔ)操作、表格計(jì)算操作、數(shù)據(jù)分析和高級(jí)數(shù)據(jù)分析的能力??梢钥吹剑盘旖Y(jié)構(gòu)化數(shù)據(jù)大模型(JT-DA-8B)在各項(xiàng)能力上與其他的開源模型相比都呈現(xiàn)出更加優(yōu)秀的性能
九天結(jié)構(gòu)化數(shù)據(jù)大模型測評(píng)結(jié)果
在實(shí)際應(yīng)用的過程中,九天結(jié)構(gòu)化數(shù)據(jù)大模型可以幫助用戶更快更準(zhǔn)地進(jìn)行數(shù)據(jù)感知與理解、數(shù)據(jù)查詢、計(jì)算、可視化分析等操作。對(duì)于專業(yè)的數(shù)據(jù)分析人員來說,應(yīng)用九天結(jié)構(gòu)化數(shù)據(jù)大模型可以大幅減少分析數(shù)據(jù)的繁瑣流程,提高數(shù)據(jù)分析效率。對(duì)于非專業(yè)人士來說,在日常的工作生活中,應(yīng)用九天結(jié)構(gòu)化數(shù)據(jù)大模型可以快速讓其具備專業(yè)數(shù)據(jù)分析師的能力,自動(dòng)化解決數(shù)據(jù)分析問題。
目前,九天結(jié)構(gòu)化數(shù)據(jù)大模型已經(jīng)在煥新社區(qū)、Huggingface和Modelscope等社區(qū)完成模型開源,全面向社會(huì)開放(https://huggingface.co/JT-LM/JT-DA-8B/,https://modelscope.cn/models/JiuTian-AI/JT-DA-8B/),標(biāo)志著結(jié)構(gòu)化數(shù)據(jù)大模型完成從模型研發(fā)到生態(tài)賦能的關(guān)鍵跨越。
目前,九天結(jié)構(gòu)化數(shù)據(jù)大模型已通過國家網(wǎng)信辦境內(nèi)深度合成服務(wù)算法備案,并已在能源、交通、物流等行業(yè)場景中發(fā)揮重要作用,例如:
在工業(yè)生產(chǎn)運(yùn)行場景中,模型通過對(duì)裝置關(guān)鍵運(yùn)行參數(shù)的實(shí)時(shí)預(yù)測和分析,實(shí)現(xiàn)多樣化的生產(chǎn)預(yù)警場景覆蓋,提升專業(yè)人員操作效率和生產(chǎn)過程安全性,優(yōu)化生產(chǎn)運(yùn)行管理效率。
在物流倉儲(chǔ)調(diào)度場景,通過對(duì)出入庫貨物流量進(jìn)行精準(zhǔn)預(yù)測,九天結(jié)構(gòu)化數(shù)據(jù)大模型能夠?yàn)閭}儲(chǔ)管理人員提供科學(xué)的決策支持,幫助其動(dòng)態(tài)優(yōu)化庫存布局與資源配置,從而顯著提升倉儲(chǔ)作業(yè)效率與運(yùn)營效益。
未來,中國移動(dòng)將持續(xù)深耕人工智能與行業(yè)融合應(yīng)用,持續(xù)開源結(jié)構(gòu)化數(shù)據(jù)大模型體系,加快推動(dòng)結(jié)構(gòu)化數(shù)據(jù)智能技術(shù)的規(guī)?;涞兀餐剿鹘Y(jié)構(gòu)化數(shù)據(jù)智能的無限可能,助力千行百業(yè)邁向高質(zhì)量數(shù)字化轉(zhuǎn)型新階段。
8月6日開始,九天將開展一系列技術(shù)直播,重點(diǎn)解析九天基礎(chǔ)大模型、開源模型及數(shù)據(jù)集,鎖定“九天人工智能”視頻號(hào),獲取最新技術(shù)干貨。
文中視頻鏈接:https://mp.weixin.qq.com/s/ZI98-q8zy0N9y7BdblBkZg
“端”出來的帥哥,用“丑爆”的3條抬頭紋,打了個(gè)漂亮的翻身仗
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。