高考改革中農(nóng)村考生志愿填報(bào)難度增加,咸陽政協(xié)呼吁加強(qiáng)指導(dǎo)
在2025世界人工智能大會(huì)上,科大訊飛(002230.SZ)展出的“星火知識(shí)庫(kù)”成為行業(yè)關(guān)注的焦點(diǎn),這一創(chuàng)新成果不僅展示了中國(guó)人工智能技術(shù)的最新進(jìn)展,更揭示了當(dāng)前大模型發(fā)展面臨的核心挑戰(zhàn)——高質(zhì)量數(shù)據(jù)集的稀缺與建設(shè)難題。隨著人工智能技術(shù)進(jìn)入深水區(qū),央國(guó)企在推進(jìn)智能化轉(zhuǎn)型過程中遭遇“數(shù)據(jù)瓶頸”日益凸顯,如何破解這一困局,成為關(guān)乎國(guó)家數(shù)字經(jīng)濟(jì)發(fā)展戰(zhàn)略的關(guān)鍵命題。
央國(guó)企大模型落地困境:高質(zhì)量數(shù)據(jù)成核心瓶頸
當(dāng)前,央國(guó)企在大模型應(yīng)用落地過程中遭遇的困境具有典型性。一方面,行業(yè)大模型對(duì)數(shù)據(jù)的需求極為多元且專業(yè),不同業(yè)務(wù)部門對(duì)模型場(chǎng)景數(shù)據(jù)的需求差異顯著,這大大增加了數(shù)據(jù)處理和管理的復(fù)雜度。以能源行業(yè)為例,勘探開發(fā)、煉化生產(chǎn)、銷售服務(wù)等不同環(huán)節(jié)產(chǎn)生的數(shù)據(jù)類型、格式和專業(yè)術(shù)語迥然不同,傳統(tǒng)的數(shù)據(jù)處理方法難以滿足這種高度專業(yè)化的需求。另一方面,在行業(yè)大模型的實(shí)際建設(shè)中,構(gòu)建和采買數(shù)據(jù)缺乏統(tǒng)一衡量標(biāo)準(zhǔn),不同業(yè)務(wù)系統(tǒng)、不同數(shù)據(jù)源的數(shù)據(jù)完整性和準(zhǔn)確性參差不齊,直接影響了模型的訓(xùn)練效果和預(yù)測(cè)準(zhǔn)確性。研究顯示,一般來說,10%的臟數(shù)據(jù)可造成30%的GPU資源浪費(fèi),同時(shí)導(dǎo)致模型調(diào)試周期延長(zhǎng)50%,效果下降10%,這種資源浪費(fèi)對(duì)于追求高效運(yùn)營(yíng)的央國(guó)企而言尤為致命。
國(guó)務(wù)院國(guó)資委規(guī)劃發(fā)展局副局長(zhǎng)胡武婕認(rèn)為,“隨著基礎(chǔ)模型開源態(tài)勢(shì)的形成,各方在算力和模型算法層面的差距正在不斷收窄,數(shù)據(jù)要素價(jià)值更加凸顯,已成為人工智能競(jìng)爭(zhēng)的核心領(lǐng)域?!边@一判斷精準(zhǔn)揭示了當(dāng)前人工智能發(fā)展的新趨勢(shì)——在算法和算力逐漸趨同的背景下,高質(zhì)量數(shù)據(jù)集已成為決定AI應(yīng)用成敗的關(guān)鍵要素。然而,央國(guó)企在數(shù)據(jù)治理方面面臨特殊挑戰(zhàn):歷史積累的龐雜語料分散在各個(gè)業(yè)務(wù)系統(tǒng)中,價(jià)值數(shù)據(jù)難以有效提??;通用大模型在專業(yè)場(chǎng)景中存在知識(shí)幻覺、專業(yè)性不足等問題;缺乏統(tǒng)一標(biāo)準(zhǔn)導(dǎo)致數(shù)據(jù)質(zhì)量評(píng)估困難,這些問題共同構(gòu)成了央國(guó)企智能化轉(zhuǎn)型道路上的“數(shù)據(jù)鴻溝”。
科大訊飛知識(shí)工程平臺(tái):破解數(shù)據(jù)困局的“利器”
面對(duì)這一行業(yè)痛點(diǎn),科大訊飛推出的知識(shí)工程平臺(tái)提供了一套系統(tǒng)化解決方案。該平臺(tái)的創(chuàng)新之處在于,它并非簡(jiǎn)單的數(shù)據(jù)處理工具,而是構(gòu)建了一個(gè)從多源語料獲取、稀缺數(shù)據(jù)合成、高質(zhì)量數(shù)據(jù)加工到模型訓(xùn)練的完整生態(tài)閉環(huán)。其核心技術(shù)突破體現(xiàn)在全自動(dòng)化的知識(shí)構(gòu)建能力上——通過多教師模型混合蒸餾、知識(shí)融合增強(qiáng)等前沿技術(shù),實(shí)現(xiàn)了行業(yè)專業(yè)知識(shí)的自動(dòng)合成,無需依賴傳統(tǒng)昂貴且低效的人工標(biāo)注流程。實(shí)際應(yīng)用數(shù)據(jù)顯示,該平臺(tái)可將數(shù)據(jù)構(gòu)建成本降低90%,知識(shí)構(gòu)建周期縮短50%,同時(shí)使模型效果提升15%,這種效率與質(zhì)量的雙重突破,為行業(yè)大模型的快速落地提供了可能。
在技術(shù)架構(gòu)層面,訊飛知識(shí)工程平臺(tái)展現(xiàn)出三大差異化優(yōu)勢(shì)。首先是其強(qiáng)大的多元異構(gòu)數(shù)據(jù)處理能力,平臺(tái)內(nèi)置的高精度語音轉(zhuǎn)寫和OCR識(shí)別引擎,能夠高效處理央國(guó)企常見的非結(jié)構(gòu)化數(shù)據(jù),如會(huì)議錄音、掃描文件、工程圖紙等,解決了傳統(tǒng)數(shù)據(jù)處理流程中的“卡脖子”環(huán)節(jié)。其次是建立了全方位的數(shù)據(jù)質(zhì)量評(píng)估體系,平臺(tái)可結(jié)合傳統(tǒng)大數(shù)據(jù)質(zhì)量要求和人工智能模型訓(xùn)練應(yīng)用要求,輸出《面向人工智能的數(shù)據(jù)集質(zhì)量通用評(píng)估方法總體要求》,將標(biāo)準(zhǔn)落地為可執(zhí)行的質(zhì)量控制節(jié)點(diǎn),從完整性、規(guī)范性、準(zhǔn)確性、及時(shí)性、一致性等多個(gè)維度構(gòu)建了數(shù)據(jù)質(zhì)量的“防火墻”。尤為關(guān)鍵的是,平臺(tái)還通過正向追蹤和反向溯源機(jī)制,確保了知識(shí)構(gòu)建過程的透明性和可解釋性,這一設(shè)計(jì)有效防范了行業(yè)大模型常見的知識(shí)“幻覺”問題,同時(shí)也規(guī)避了版權(quán)合規(guī)風(fēng)險(xiǎn)。
平臺(tái)操作界面的易用性設(shè)計(jì)同樣值得稱道。針對(duì)央國(guó)企技術(shù)團(tuán)隊(duì)的特點(diǎn),訊飛知識(shí)工程平臺(tái)采用零代碼畫布式建模工具,用戶通過簡(jiǎn)單的組件拖拽即可自定義知識(shí)加工流程,節(jié)點(diǎn)參數(shù)配置界面支持精細(xì)化調(diào)整,而斷點(diǎn)調(diào)試功能則確保了處理結(jié)果的可控性。這種“低門檻、高靈活”的設(shè)計(jì)理念,極大降低了人工智能技術(shù)的應(yīng)用難度,使業(yè)務(wù)專家無需深入掌握編程技能也能參與知識(shí)構(gòu)建工作,真正實(shí)現(xiàn)了“業(yè)務(wù)驅(qū)動(dòng)”的智能化轉(zhuǎn)型。
本次WAIC大會(huì)期間,科大訊飛所展示的“星火知識(shí)庫(kù)”便充分展現(xiàn)了其在企業(yè)知識(shí)管理領(lǐng)域的創(chuàng)新突破,方案提供從知識(shí)創(chuàng)作、知識(shí)加工、知識(shí)管理到知識(shí)共享、知識(shí)應(yīng)用的全生命周期閉環(huán)管理,可顯著提升知識(shí)加工效率、檢索效率和問答體驗(yàn),實(shí)現(xiàn)企業(yè)知識(shí)的高效生產(chǎn)、有效沉淀、快速應(yīng)用。
中石油昆侖大模型落地:數(shù)據(jù)驅(qū)動(dòng)的行業(yè)AI價(jià)值
中國(guó)石油的實(shí)踐案例生動(dòng)詮釋了訊飛知識(shí)工程平臺(tái)的價(jià)值。作為能源行業(yè)的龍頭企業(yè),中石油擁有海量的勘探開發(fā)、煉化生產(chǎn)、經(jīng)營(yíng)管理數(shù)據(jù),但如何將這些數(shù)據(jù)轉(zhuǎn)化為大模型的“營(yíng)養(yǎng)”,曾是企業(yè)面臨的主要障礙。
通過部署訊飛知識(shí)工程平臺(tái),中石油成功構(gòu)建了覆蓋油氣全產(chǎn)業(yè)鏈的高質(zhì)量數(shù)據(jù)集,并以此訓(xùn)練出專屬的“昆侖大模型”。該模型已成功應(yīng)用于57個(gè)業(yè)務(wù)場(chǎng)景:其專業(yè)領(lǐng)域的應(yīng)用范圍從勘探延伸至煉化、銷售、裝備制造等。通用領(lǐng)域推出“員工助手”、“行業(yè)大家”、“智能油伴”等專業(yè)應(yīng)用,其中“員工助手”覆蓋科研、辦公等場(chǎng)景,可助力開啟“AI+”高效辦公模式;“行業(yè)大家”應(yīng)用助力從業(yè)者提升技能;“智能油伴”以更智能、擬人化交互提升客戶服務(wù)體驗(yàn)等,實(shí)現(xiàn)了成本降低30%、周期縮短50%、效果提升30%的顯著效益。
昆侖大模型并非空中樓閣,而是緊密圍繞能源化工行業(yè)的痛點(diǎn)和需求,打造了一系列具有行業(yè)特色的深度應(yīng)用場(chǎng)景。無論是賦能地質(zhì)研究、生產(chǎn)優(yōu)化,還是提升辦公效率、客戶服務(wù)水平,昆侖大模型正逐步滲透到業(yè)務(wù)與管理的各個(gè)環(huán)節(jié),這種基于企業(yè)自身數(shù)據(jù)訓(xùn)練的大模型真正貼合了行業(yè)專業(yè)需求,實(shí)現(xiàn)了AI技術(shù)與實(shí)體經(jīng)濟(jì)的深度融合。
從中石油等多家央國(guó)企業(yè)項(xiàng)目成功實(shí)踐,訊飛進(jìn)一步沉淀了豐富的行業(yè)知識(shí)構(gòu)建模板和成熟的DREAM大模型構(gòu)建框架——Define場(chǎng)景定義、Review資源審視、Extract數(shù)據(jù)提取、Algorithm模型訓(xùn)練、Measure效果測(cè)試。這一方法論不僅是一套技術(shù)流程,更代表了“場(chǎng)景驅(qū)動(dòng)、數(shù)據(jù)為先”的行業(yè)大模型建設(shè)理念。目前,該框架已在多家央國(guó)企項(xiàng)目中得到驗(yàn)證,形成了覆蓋能源、金融、制造等多個(gè)行業(yè)的知識(shí)構(gòu)建模板,為后來者提供了可復(fù)制的成功路徑。
站在新一輪科技革命和產(chǎn)業(yè)變革的歷史節(jié)點(diǎn),高質(zhì)量數(shù)據(jù)集建設(shè)已成為推動(dòng)人工智能與實(shí)體經(jīng)濟(jì)深度融合的關(guān)鍵基礎(chǔ)設(shè)施。科大訊飛知識(shí)工程平臺(tái)的創(chuàng)新實(shí)踐,為破解央國(guó)企大模型落地難題提供了可行路徑,其價(jià)值不僅在于技術(shù)突破,更在于構(gòu)建了一套從數(shù)據(jù)治理到模型應(yīng)用的全生命周期解決方案。
隨著數(shù)字經(jīng)濟(jì)深入發(fā)展,數(shù)據(jù)要素的市場(chǎng)價(jià)值將持續(xù)釋放,而那些能夠率先構(gòu)建高質(zhì)量數(shù)據(jù)資產(chǎn)、掌握智能技術(shù)核心能力的央國(guó)企,將在未來的產(chǎn)業(yè)競(jìng)爭(zhēng)中占據(jù)制高點(diǎn)。從這個(gè)意義上說,解決數(shù)據(jù)質(zhì)量問題不僅是一個(gè)技術(shù)課題,更是關(guān)乎國(guó)家數(shù)字經(jīng)濟(jì)戰(zhàn)略實(shí)施和產(chǎn)業(yè)競(jìng)爭(zhēng)力的重大命題??拼笥嶏w的探索為行業(yè)提供了有益啟示:只有打通數(shù)據(jù)—知識(shí)—智能的轉(zhuǎn)化通道,才能真正釋放人工智能的變革力量,推動(dòng)千行百業(yè)實(shí)現(xiàn)質(zhì)的飛躍。
《雙星物語2》Steam復(fù)出:經(jīng)典游戲的獨(dú)特魅力再發(fā)現(xiàn)
實(shí)用靠譜的家用投影儀,你還不知道怎么選嗎?
家電革新!AWE 2025,開啟AI新時(shí)代