在2025世界人工智能大會上,科大訊飛(002230.SZ)展出的“星火知識庫”成為行業(yè)關(guān)注的焦點,這一創(chuàng)新成果不僅展示了中國人工智能技術(shù)的最新進展,更揭示了當前大模型發(fā)展面臨的核心挑戰(zhàn)——高質(zhì)量數(shù)據(jù)集的稀缺與建設(shè)難題。隨著人工智能技術(shù)進入深水區(qū),央國企在推進智能化轉(zhuǎn)型過程中遭遇“數(shù)據(jù)瓶頸”日益凸顯,如何破解這一困局,成為關(guān)乎國家數(shù)字經(jīng)濟發(fā)展戰(zhàn)略的關(guān)鍵命題。
央國企大模型落地困境:高質(zhì)量數(shù)據(jù)成核心瓶頸
當前,央國企在大模型應用落地過程中遭遇的困境具有典型性。一方面,行業(yè)大模型對數(shù)據(jù)的需求極為多元且專業(yè),不同業(yè)務部門對模型場景數(shù)據(jù)的需求差異顯著,這大大增加了數(shù)據(jù)處理和管理的復雜度。以能源行業(yè)為例,勘探開發(fā)、煉化生產(chǎn)、銷售服務等不同環(huán)節(jié)產(chǎn)生的數(shù)據(jù)類型、格式和專業(yè)術(shù)語迥然不同,傳統(tǒng)的數(shù)據(jù)處理方法難以滿足這種高度專業(yè)化的需求。另一方面,在行業(yè)大模型的實際建設(shè)中,構(gòu)建和采買數(shù)據(jù)缺乏統(tǒng)一衡量標準,不同業(yè)務系統(tǒng)、不同數(shù)據(jù)源的數(shù)據(jù)完整性和準確性參差不齊,直接影響了模型的訓練效果和預測準確性。研究顯示,一般來說,10%的臟數(shù)據(jù)可造成30%的GPU資源浪費,同時導致模型調(diào)試周期延長50%,效果下降10%,這種資源浪費對于追求高效運營的央國企而言尤為致命。
國務院國資委規(guī)劃發(fā)展局副局長胡武婕認為,“隨著基礎(chǔ)模型開源態(tài)勢的形成,各方在算力和模型算法層面的差距正在不斷收窄,數(shù)據(jù)要素價值更加凸顯,已成為人工智能競爭的核心領(lǐng)域?!边@一判斷精準揭示了當前人工智能發(fā)展的新趨勢——在算法和算力逐漸趨同的背景下,高質(zhì)量數(shù)據(jù)集已成為決定AI應用成敗的關(guān)鍵要素。然而,央國企在數(shù)據(jù)治理方面面臨特殊挑戰(zhàn):歷史積累的龐雜語料分散在各個業(yè)務系統(tǒng)中,價值數(shù)據(jù)難以有效提??;通用大模型在專業(yè)場景中存在知識幻覺、專業(yè)性不足等問題;缺乏統(tǒng)一標準導致數(shù)據(jù)質(zhì)量評估困難,這些問題共同構(gòu)成了央國企智能化轉(zhuǎn)型道路上的“數(shù)據(jù)鴻溝”。
科大訊飛知識工程平臺:破解數(shù)據(jù)困局的“利器”
面對這一行業(yè)痛點,科大訊飛推出的知識工程平臺提供了一套系統(tǒng)化解決方案。該平臺的創(chuàng)新之處在于,它并非簡單的數(shù)據(jù)處理工具,而是構(gòu)建了一個從多源語料獲取、稀缺數(shù)據(jù)合成、高質(zhì)量數(shù)據(jù)加工到模型訓練的完整生態(tài)閉環(huán)。其核心技術(shù)突破體現(xiàn)在全自動化的知識構(gòu)建能力上——通過多教師模型混合蒸餾、知識融合增強等前沿技術(shù),實現(xiàn)了行業(yè)專業(yè)知識的自動合成,無需依賴傳統(tǒng)昂貴且低效的人工標注流程。實際應用數(shù)據(jù)顯示,該平臺可將數(shù)據(jù)構(gòu)建成本降低90%,知識構(gòu)建周期縮短50%,同時使模型效果提升15%,這種效率與質(zhì)量的雙重突破,為行業(yè)大模型的快速落地提供了可能。
在技術(shù)架構(gòu)層面,訊飛知識工程平臺展現(xiàn)出三大差異化優(yōu)勢。首先是其強大的多元異構(gòu)數(shù)據(jù)處理能力,平臺內(nèi)置的高精度語音轉(zhuǎn)寫和OCR識別引擎,能夠高效處理央國企常見的非結(jié)構(gòu)化數(shù)據(jù),如會議錄音、掃描文件、工程圖紙等,解決了傳統(tǒng)數(shù)據(jù)處理流程中的“卡脖子”環(huán)節(jié)。其次是建立了全方位的數(shù)據(jù)質(zhì)量評估體系,平臺可結(jié)合傳統(tǒng)大數(shù)據(jù)質(zhì)量要求和人工智能模型訓練應用要求,輸出《面向人工智能的數(shù)據(jù)集質(zhì)量通用評估方法總體要求》,將標準落地為可執(zhí)行的質(zhì)量控制節(jié)點,從完整性、規(guī)范性、準確性、及時性、一致性等多個維度構(gòu)建了數(shù)據(jù)質(zhì)量的“防火墻”。尤為關(guān)鍵的是,平臺還通過正向追蹤和反向溯源機制,確保了知識構(gòu)建過程的透明性和可解釋性,這一設(shè)計有效防范了行業(yè)大模型常見的知識“幻覺”問題,同時也規(guī)避了版權(quán)合規(guī)風險。
平臺操作界面的易用性設(shè)計同樣值得稱道。針對央國企技術(shù)團隊的特點,訊飛知識工程平臺采用零代碼畫布式建模工具,用戶通過簡單的組件拖拽即可自定義知識加工流程,節(jié)點參數(shù)配置界面支持精細化調(diào)整,而斷點調(diào)試功能則確保了處理結(jié)果的可控性。這種“低門檻、高靈活”的設(shè)計理念,極大降低了人工智能技術(shù)的應用難度,使業(yè)務專家無需深入掌握編程技能也能參與知識構(gòu)建工作,真正實現(xiàn)了“業(yè)務驅(qū)動”的智能化轉(zhuǎn)型。
本次WAIC大會期間,科大訊飛所展示的“星火知識庫”便充分展現(xiàn)了其在企業(yè)知識管理領(lǐng)域的創(chuàng)新突破,方案提供從知識創(chuàng)作、知識加工、知識管理到知識共享、知識應用的全生命周期閉環(huán)管理,可顯著提升知識加工效率、檢索效率和問答體驗,實現(xiàn)企業(yè)知識的高效生產(chǎn)、有效沉淀、快速應用。
中石油昆侖大模型落地:數(shù)據(jù)驅(qū)動的行業(yè)AI價值
中國石油的實踐案例生動詮釋了訊飛知識工程平臺的價值。作為能源行業(yè)的龍頭企業(yè),中石油擁有海量的勘探開發(fā)、煉化生產(chǎn)、經(jīng)營管理數(shù)據(jù),但如何將這些數(shù)據(jù)轉(zhuǎn)化為大模型的“營養(yǎng)”,曾是企業(yè)面臨的主要障礙。
通過部署訊飛知識工程平臺,中石油成功構(gòu)建了覆蓋油氣全產(chǎn)業(yè)鏈的高質(zhì)量數(shù)據(jù)集,并以此訓練出專屬的“昆侖大模型”。該模型已成功應用于57個業(yè)務場景:其專業(yè)領(lǐng)域的應用范圍從勘探延伸至煉化、銷售、裝備制造等。通用領(lǐng)域推出“員工助手”、“行業(yè)大家”、“智能油伴”等專業(yè)應用,其中“員工助手”覆蓋科研、辦公等場景,可助力開啟“AI+”高效辦公模式;“行業(yè)大家”應用助力從業(yè)者提升技能;“智能油伴”以更智能、擬人化交互提升客戶服務體驗等,實現(xiàn)了成本降低30%、周期縮短50%、效果提升30%的顯著效益。
昆侖大模型并非空中樓閣,而是緊密圍繞能源化工行業(yè)的痛點和需求,打造了一系列具有行業(yè)特色的深度應用場景。無論是賦能地質(zhì)研究、生產(chǎn)優(yōu)化,還是提升辦公效率、客戶服務水平,昆侖大模型正逐步滲透到業(yè)務與管理的各個環(huán)節(jié),這種基于企業(yè)自身數(shù)據(jù)訓練的大模型真正貼合了行業(yè)專業(yè)需求,實現(xiàn)了AI技術(shù)與實體經(jīng)濟的深度融合。
從中石油等多家央國企業(yè)項目成功實踐,訊飛進一步沉淀了豐富的行業(yè)知識構(gòu)建模板和成熟的DREAM大模型構(gòu)建框架——Define場景定義、Review資源審視、Extract數(shù)據(jù)提取、Algorithm模型訓練、Measure效果測試。這一方法論不僅是一套技術(shù)流程,更代表了“場景驅(qū)動、數(shù)據(jù)為先”的行業(yè)大模型建設(shè)理念。目前,該框架已在多家央國企項目中得到驗證,形成了覆蓋能源、金融、制造等多個行業(yè)的知識構(gòu)建模板,為后來者提供了可復制的成功路徑。
站在新一輪科技革命和產(chǎn)業(yè)變革的歷史節(jié)點,高質(zhì)量數(shù)據(jù)集建設(shè)已成為推動人工智能與實體經(jīng)濟深度融合的關(guān)鍵基礎(chǔ)設(shè)施??拼笥嶏w知識工程平臺的創(chuàng)新實踐,為破解央國企大模型落地難題提供了可行路徑,其價值不僅在于技術(shù)突破,更在于構(gòu)建了一套從數(shù)據(jù)治理到模型應用的全生命周期解決方案。
隨著數(shù)字經(jīng)濟深入發(fā)展,數(shù)據(jù)要素的市場價值將持續(xù)釋放,而那些能夠率先構(gòu)建高質(zhì)量數(shù)據(jù)資產(chǎn)、掌握智能技術(shù)核心能力的央國企,將在未來的產(chǎn)業(yè)競爭中占據(jù)制高點。從這個意義上說,解決數(shù)據(jù)質(zhì)量問題不僅是一個技術(shù)課題,更是關(guān)乎國家數(shù)字經(jīng)濟戰(zhàn)略實施和產(chǎn)業(yè)競爭力的重大命題??拼笥嶏w的探索為行業(yè)提供了有益啟示:只有打通數(shù)據(jù)—知識—智能的轉(zhuǎn)化通道,才能真正釋放人工智能的變革力量,推動千行百業(yè)實現(xiàn)質(zhì)的飛躍。
延伸閱讀:與 科大訊飛知識工程平臺:何!!以破局 的相關(guān)文章