封面新聞?dòng)浾哌呇┥虾2稍L報(bào)道
“DeepSeek向王一博道歉”的消息沖上熱搜后,AI一本正經(jīng)地胡說(shuō)八道(AI幻覺(jué))也引發(fā)業(yè)內(nèi)熱議。而如何降低AI幻覺(jué),提升模型輸出內(nèi)容的準(zhǔn)確率,也成為2025世界人工智能大會(huì)(WAIC)關(guān)注的焦點(diǎn)。
從貝葉斯統(tǒng)計(jì)到深度學(xué)習(xí),不確定性量化始終是機(jī)器學(xué)習(xí)領(lǐng)域的核心挑戰(zhàn)。傳統(tǒng)機(jī)器學(xué)習(xí)模型通過(guò)概率分布、置信區(qū)間等方法量化預(yù)測(cè)不確定性,但在大模型時(shí)代,亟需量化大模型輸出的置信度,避免過(guò)度自信的回答產(chǎn)生嚴(yán)重后果。
“所謂幻覺(jué),即在缺乏事實(shí)支撐或邏輯校驗(yàn)的情況下,生成出語(yǔ)義連貫但事實(shí)錯(cuò)誤或虛構(gòu)的信息。”中國(guó)工程院院士、人機(jī)混合增強(qiáng)智能全國(guó)重點(diǎn)實(shí)驗(yàn)室主任鄭南寧告訴封面新聞?dòng)浾?,這種現(xiàn)象不僅體現(xiàn)在細(xì)節(jié)性誤報(bào),更可能在多輪對(duì)話、復(fù)雜任務(wù)規(guī)劃中造成系統(tǒng)性誤導(dǎo)。
“幻覺(jué)”成為大模型發(fā)展關(guān)鍵瓶頸
“在模型能力不斷擴(kuò)展同時(shí),其‘幻覺(jué)’現(xiàn)象已成為制約其可靠性與實(shí)用性的關(guān)鍵問(wèn)題之一。在鄭南寧看來(lái),幻覺(jué)的深層根源在于當(dāng)前大模型仍以統(tǒng)計(jì)相關(guān)性驅(qū)動(dòng)語(yǔ)言生成,缺乏對(duì)世界知識(shí)的結(jié)構(gòu)化表征與因果推理能力,無(wú)法對(duì)生成內(nèi)容進(jìn)行驗(yàn)證、糾錯(cuò)或自我否定,難以實(shí)現(xiàn)真正的認(rèn)知躍遷。
這一觀點(diǎn)在2025WAIC會(huì)上,獲得多位重量級(jí)學(xué)者響應(yīng)。封面新聞?dòng)浾咦⒁獾剑诙鄨?chǎng)分論壇中,“幻覺(jué)治理”成為出現(xiàn)頻率最高的技術(shù)關(guān)鍵詞之一
“在人工智能日益滲透人類(lèi)生活的今天,‘自知能力’承載著比技術(shù)指標(biāo)更為深層的價(jià)值內(nèi)涵,它關(guān)乎智能系統(tǒng)的自我認(rèn)知、決策透明,以及人機(jī)協(xié)作的和諧共生?!蔽靼搽娮涌萍即髮W(xué)徐偲副教授告訴封面新聞?dòng)浾撸S著大模型在自動(dòng)駕駛、醫(yī)療診斷等零容錯(cuò)率場(chǎng)景的應(yīng)用,不確定性量化已從學(xué)術(shù)問(wèn)題轉(zhuǎn)變?yōu)榘踩拙€。
推理模型幻覺(jué)率高達(dá)22.95%
行業(yè)面臨的挑戰(zhàn)在第三方測(cè)評(píng)數(shù)據(jù)中得到量化印證。中文通用大模型測(cè)評(píng)基準(zhǔn)SuperCLUE最新數(shù)據(jù)顯示,DeepSeek-R1模型幻覺(jué)率高達(dá)21.02%,遠(yuǎn)高于豆包大模型4.11%的數(shù)值,也超過(guò)DeepSeek另一款大語(yǔ)言模型V3的13.83%。
測(cè)評(píng)揭示了一個(gè)反直覺(jué)現(xiàn)象:推理能力越強(qiáng),幻覺(jué)問(wèn)題越嚴(yán)重。數(shù)據(jù)顯示,推理模型平均幻覺(jué)率達(dá)22.95%,而非推理模型平均為13.52%,打破了“模型越智能越可靠”的普遍假設(shè)。
這種認(rèn)知同源性使問(wèn)題復(fù)雜化。上海交通大學(xué)張拳石教授在“可解釋AI”分論壇上指出:“大模型的‘聰明’往往是事后擬合的幻象,缺乏可解釋性和可驗(yàn)證性。若要在關(guān)鍵場(chǎng)景落地,必須實(shí)現(xiàn)可解釋、可驗(yàn)證、透明可信的技術(shù)體系?!?/p>
過(guò)高的幻覺(jué)率,直接影響用戶(hù)體驗(yàn)。第三方統(tǒng)計(jì)顯示,相較于年初,DeepSeek的月均下載量與使用率已大幅下降。一位金融科技公司的CTO向封面新聞?dòng)浾咄嘎叮骸拔覀冊(cè)陲L(fēng)控系統(tǒng)中撤回了AI模塊,因?yàn)榘l(fā)現(xiàn)它會(huì)捏造不存在的監(jiān)管條款,風(fēng)險(xiǎn)太高。”
行業(yè)構(gòu)建“防幻覺(jué)”工程體系
面對(duì)技術(shù)挑戰(zhàn),產(chǎn)業(yè)界在WAIC現(xiàn)場(chǎng)展示了系統(tǒng)性解決方案。階躍星辰推出的“深入核查”功能直擊幻覺(jué)痛點(diǎn),通過(guò)四大核心能力構(gòu)建防御體系:信息獲取引擎、交叉信源核查、信源權(quán)威性評(píng)估和提供引用來(lái)源。
“我們不輸出‘事實(shí)’,而是輸出證據(jù)?!彪A躍AI產(chǎn)品負(fù)責(zé)人向封面新聞?dòng)浾呓榻B,該功能已獲取2000多個(gè)優(yōu)質(zhì)信源,文獻(xiàn)庫(kù)超1000萬(wàn)篇,為用戶(hù)提供“二次核查”的依據(jù)。
而在專(zhuān)業(yè)領(lǐng)域,AI幻覺(jué)產(chǎn)生的問(wèn)題并非無(wú)解。在達(dá)觀數(shù)據(jù)展臺(tái),首款深度融合Agent能力的企業(yè)級(jí)知識(shí)庫(kù)產(chǎn)品,為金融、制造、能源、政務(wù)等多行業(yè)的知識(shí)管理升級(jí)開(kāi)辟全新路徑。達(dá)觀數(shù)據(jù)工作人員告訴封面新聞?dòng)浾?,“以‘知識(shí)庫(kù)+Agent’的創(chuàng)新組合,為企業(yè)知識(shí)資產(chǎn)的價(jià)值釋放提供了新范式,其中審核Agent可以化身‘智能參謀’,輔助業(yè)務(wù)審核流程,自動(dòng)識(shí)別邏輯漏洞、查缺補(bǔ)漏,大幅提升合規(guī)性與準(zhǔn)確性?!?/p>
訊飛星火X1升級(jí)版則從模型架構(gòu)層面突破。其采用多路徑采樣驗(yàn)證及事實(shí)性約束強(qiáng)化學(xué)習(xí)技術(shù),在慢思考場(chǎng)景下實(shí)現(xiàn)與標(biāo)準(zhǔn)答案的深度強(qiáng)對(duì)齊。官方數(shù)據(jù)顯示,新版本在改寫(xiě)潤(rùn)色、總結(jié)摘要等場(chǎng)景中,幻覺(jué)率降低45%至50%。
諾貝爾獎(jiǎng)得主杰弗里·辛頓的主論壇演講為AI幻覺(jué)問(wèn)題提供了顛覆性視角。他指出:“人類(lèi)理解語(yǔ)言的方式與大語(yǔ)言模型理解語(yǔ)言的方式幾乎一樣,人類(lèi)有可能就是大語(yǔ)言模型,人類(lèi)也會(huì)和大語(yǔ)言模型一樣產(chǎn)生幻覺(jué)?!?/p>
AI幻覺(jué)治理路徑從技術(shù)優(yōu)化到全球協(xié)作
面對(duì)AI幻覺(jué)的多維度挑戰(zhàn),WAIC2025勾勒出漸進(jìn)式治理路徑。鄭南寧院士強(qiáng)調(diào),智能范式的躍遷需要重塑社會(huì)運(yùn)行結(jié)構(gòu),意圖智能的崛起與認(rèn)知轉(zhuǎn)型將推動(dòng)更深層的科技革命。
合合信息數(shù)據(jù)事業(yè)部副總經(jīng)理沈東輝從商業(yè)落地角度提出解決方案:“廠商要保證數(shù)據(jù)的可信、可靠與準(zhǔn)確,同時(shí)確保大模型生成的過(guò)程可解釋、可控制,這樣才能保證生成的結(jié)論可用、有價(jià)值且可信?!?/p>
諾貝爾獎(jiǎng)得主杰弗里·辛頓提出了更為宏大的治理框架。他呼吁建立由各國(guó)人工智能安全研究所與國(guó)內(nèi)研究網(wǎng)絡(luò)組成的國(guó)際社群:“我們沒(méi)有辦法消除AI,即使一個(gè)國(guó)家消除了AI,別的國(guó)家也不會(huì)這么做。必須找到辦法訓(xùn)練AI,讓它們不要消滅人類(lèi)?!?/p>
這一觀點(diǎn),也與本次會(huì)議重磅發(fā)布的《WAIC2025全球AI治理上海倡議》形成呼應(yīng):跨國(guó)協(xié)作機(jī)制正在成為應(yīng)對(duì)AI安全挑戰(zhàn)的基礎(chǔ)設(shè)施。
徹底消除AI幻覺(jué),仍是遙不可及的目標(biāo)。但當(dāng)意圖驅(qū)動(dòng)智能逐步取代模型驅(qū)動(dòng)范式,人類(lèi)將迎來(lái)真正的認(rèn)知躍遷。期待那時(shí),AI不再是不懂裝懂的“大話精”,而是值得信賴(lài)的認(rèn)知伙伴。
延伸閱讀:與 《柬埔寨稱(chēng)》泰在柬:沿海部署8艘軍艦泰國(guó)軍方最新發(fā)||聲 的相關(guān)文章