封面新聞記者邊雪上海采訪報道
“DeepSeek向王一博道歉”的消息沖上熱搜后,AI一本正經(jīng)地胡說八道(AI幻覺)也引發(fā)業(yè)內(nèi)熱議。而如何降低AI幻覺,提升模型輸出內(nèi)容的準確率,也成為2025世界人工智能大會(WAIC)關(guān)注的焦點。
從貝葉斯統(tǒng)計到深度學習,不確定性量化始終是機器學習領(lǐng)域的核心挑戰(zhàn)。傳統(tǒng)機器學習模型通過概率分布、置信區(qū)間等方法量化預測不確定性,但在大模型時代,亟需量化大模型輸出的置信度,避免過度自信的回答產(chǎn)生嚴重后果。
“所謂幻覺,即在缺乏事實支撐或邏輯校驗的情況下,生成出語義連貫但事實錯誤或虛構(gòu)的信息?!敝袊こ淘涸菏俊⑷藱C混合增強智能全國重點實驗室主任鄭南寧告訴封面新聞記者,這種現(xiàn)象不僅體現(xiàn)在細節(jié)性誤報,更可能在多輪對話、復雜任務(wù)規(guī)劃中造成系統(tǒng)性誤導。
“幻覺”成為大模型發(fā)展關(guān)鍵瓶頸
“在模型能力不斷擴展同時,其‘幻覺’現(xiàn)象已成為制約其可靠性與實用性的關(guān)鍵問題之一。在鄭南寧看來,幻覺的深層根源在于當前大模型仍以統(tǒng)計相關(guān)性驅(qū)動語言生成,缺乏對世界知識的結(jié)構(gòu)化表征與因果推理能力,無法對生成內(nèi)容進行驗證、糾錯或自我否定,難以實現(xiàn)真正的認知躍遷。
這一觀點在2025WAIC會上,獲得多位重量級學者響應。封面新聞記者注意到,在多場分論壇中,“幻覺治理”成為出現(xiàn)頻率最高的技術(shù)關(guān)鍵詞之一
“在人工智能日益滲透人類生活的今天,‘自知能力’承載著比技術(shù)指標更為深層的價值內(nèi)涵,它關(guān)乎智能系統(tǒng)的自我認知、決策透明,以及人機協(xié)作的和諧共生?!蔽靼搽娮涌萍即髮W徐偲副教授告訴封面新聞記者,隨著大模型在自動駕駛、醫(yī)療診斷等零容錯率場景的應用,不確定性量化已從學術(shù)問題轉(zhuǎn)變?yōu)榘踩拙€。
推理模型幻覺率高達22.95%
行業(yè)面臨的挑戰(zhàn)在第三方測評數(shù)據(jù)中得到量化印證。中文通用大模型測評基準SuperCLUE最新數(shù)據(jù)顯示,DeepSeek-R1模型幻覺率高達21.02%,遠高于豆包大模型4.11%的數(shù)值,也超過DeepSeek另一款大語言模型V3的13.83%。
測評揭示了一個反直覺現(xiàn)象:推理能力越強,幻覺問題越嚴重。數(shù)據(jù)顯示,推理模型平均幻覺率達22.95%,而非推理模型平均為13.52%,打破了“模型越智能越可靠”的普遍假設(shè)。
這種認知同源性使問題復雜化。上海交通大學張拳石教授在“可解釋AI”分論壇上指出:“大模型的‘聰明’往往是事后擬合的幻象,缺乏可解釋性和可驗證性。若要在關(guān)鍵場景落地,必須實現(xiàn)可解釋、可驗證、透明可信的技術(shù)體系?!?/p>
過高的幻覺率,直接影響用戶體驗。第三方統(tǒng)計顯示,相較于年初,DeepSeek的月均下載量與使用率已大幅下降。一位金融科技公司的CTO向封面新聞記者透露:“我們在風控系統(tǒng)中撤回了AI模塊,因為發(fā)現(xiàn)它會捏造不存在的監(jiān)管條款,風險太高。”
行業(yè)構(gòu)建“防幻覺”工程體系
面對技術(shù)挑戰(zhàn),產(chǎn)業(yè)界在WAIC現(xiàn)場展示了系統(tǒng)性解決方案。階躍星辰推出的“深入核查”功能直擊幻覺痛點,通過四大核心能力構(gòu)建防御體系:信息獲取引擎、交叉信源核查、信源權(quán)威性評估和提供引用來源。
“我們不輸出‘事實’,而是輸出證據(jù)?!彪A躍AI產(chǎn)品負責人向封面新聞記者介紹,該功能已獲取2000多個優(yōu)質(zhì)信源,文獻庫超1000萬篇,為用戶提供“二次核查”的依據(jù)。
而在專業(yè)領(lǐng)域,AI幻覺產(chǎn)生的問題并非無解。在達觀數(shù)據(jù)展臺,首款深度融合Agent能力的企業(yè)級知識庫產(chǎn)品,為金融、制造、能源、政務(wù)等多行業(yè)的知識管理升級開辟全新路徑。達觀數(shù)據(jù)工作人員告訴封面新聞記者,“以‘知識庫+Agent’的創(chuàng)新組合,為企業(yè)知識資產(chǎn)的價值釋放提供了新范式,其中審核Agent可以化身‘智能參謀’,輔助業(yè)務(wù)審核流程,自動識別邏輯漏洞、查缺補漏,大幅提升合規(guī)性與準確性?!?/p>
訊飛星火X1升級版則從模型架構(gòu)層面突破。其采用多路徑采樣驗證及事實性約束強化學習技術(shù),在慢思考場景下實現(xiàn)與標準答案的深度強對齊。官方數(shù)據(jù)顯示,新版本在改寫潤色、總結(jié)摘要等場景中,幻覺率降低45%至50%。
諾貝爾獎得主杰弗里·辛頓的主論壇演講為AI幻覺問題提供了顛覆性視角。他指出:“人類理解語言的方式與大語言模型理解語言的方式幾乎一樣,人類有可能就是大語言模型,人類也會和大語言模型一樣產(chǎn)生幻覺?!?/p>
AI幻覺治理路徑從技術(shù)優(yōu)化到全球協(xié)作
面對AI幻覺的多維度挑戰(zhàn),WAIC2025勾勒出漸進式治理路徑。鄭南寧院士強調(diào),智能范式的躍遷需要重塑社會運行結(jié)構(gòu),意圖智能的崛起與認知轉(zhuǎn)型將推動更深層的科技革命。
合合信息數(shù)據(jù)事業(yè)部副總經(jīng)理沈東輝從商業(yè)落地角度提出解決方案:“廠商要保證數(shù)據(jù)的可信、可靠與準確,同時確保大模型生成的過程可解釋、可控制,這樣才能保證生成的結(jié)論可用、有價值且可信?!?/p>
諾貝爾獎得主杰弗里·辛頓提出了更為宏大的治理框架。他呼吁建立由各國人工智能安全研究所與國內(nèi)研究網(wǎng)絡(luò)組成的國際社群:“我們沒有辦法消除AI,即使一個國家消除了AI,別的國家也不會這么做。必須找到辦法訓練AI,讓它們不要消滅人類。”
這一觀點,也與本次會議重磅發(fā)布的《WAIC2025全球AI治理上海倡議》形成呼應:跨國協(xié)作機制正在成為應對AI安全挑戰(zhàn)的基礎(chǔ)設(shè)施。
徹底消除AI幻覺,仍是遙不可及的目標。但當意圖驅(qū)動智能逐步取代模型驅(qū)動范式,人類將迎來真正的認知躍遷。期待那時,AI不再是不懂裝懂的“大話精”,而是值得信賴的認知伙伴。
萬古神帝:有教無類的帝女張紅塵
李靖的老婆為何叫殷夫人,而不是李夫人?你看她究竟是什么來路
伏天氏:命運佛預言若成真,四十年后義父等人回歸,杜先生出獄...