2025年世界人工智能大會(huì)各大論壇的議題中,“安全治理”幾乎是繞不開(kāi)的話題。記者在采訪中發(fā)現(xiàn),“AI確定性”也常常被人提及。
特別是DeepSeek-R1的橫空出世,給業(yè)界帶來(lái)震撼的同時(shí),也引發(fā)了隱憂:推理能力越強(qiáng),AI幻覺(jué)越高。在AI加速商業(yè)化落地的浪潮中,降低AI幻覺(jué)、提升輸出的確定性,已成為業(yè)界面臨的一道必答題。
推理模型的幻覺(jué)更嚴(yán)重
最近,一則“DeepSeek向王一博道歉”的消息沖上熱搜。而事實(shí)證明是,AI幻覺(jué)導(dǎo)致以訛傳訛,最終成了謠言。這無(wú)疑是AI時(shí)代的荒誕現(xiàn)實(shí)。
所謂的AI幻覺(jué),就是大模型在“一本正經(jīng)地胡說(shuō)八道”。中文通用大模型綜合性測(cè)評(píng)基準(zhǔn)SuperCLUE的測(cè)評(píng)結(jié)果顯示,DeepSeek-R1模型幻覺(jué)率高達(dá)21.02%,遠(yuǎn)遠(yuǎn)低于豆包大模型的4.11%,也低于DeepSeek另一款大語(yǔ)言模型V3的13.83%。該測(cè)評(píng)結(jié)果還顯示,推理模型的幻覺(jué)比非推理模型更嚴(yán)重,推理模型平均幻覺(jué)率為22.95%,非推理模型的平均幻覺(jué)率為13.52%。
或許是過(guò)高的幻覺(jué)率,勸退了很多用戶。第三方統(tǒng)計(jì)數(shù)據(jù)顯示,相較于年初,DeepSeek的月均下載量與使用率已大幅下降。
DeepSeek也意識(shí)到這一問(wèn)題。5月29日,DeepSeek在升級(jí)模型時(shí),特意針對(duì)幻覺(jué)問(wèn)題作出優(yōu)化。據(jù)官方文檔介紹,新版本模型在改寫(xiě)潤(rùn)色、總結(jié)摘要、閱讀理解等場(chǎng)景中,幻覺(jué)率降低45%—50%,輸出結(jié)果更為準(zhǔn)確可靠。
AI幻覺(jué)難以避免
AI幻覺(jué),本質(zhì)上源于大模型的雙重技術(shù)局限:一是推理時(shí)編造內(nèi)容,二是訓(xùn)練數(shù)據(jù)不全。大模型只能靠訓(xùn)練數(shù)據(jù)來(lái)理解世界,如果訓(xùn)練數(shù)據(jù)漏掉了關(guān)鍵信息,或者有錯(cuò)誤內(nèi)容,大模型輸出的結(jié)果就容易出錯(cuò)。
遺憾的是,“愛(ài)編故事”是大模型的天生缺陷。拋開(kāi)那些復(fù)雜的技術(shù)原理,大模型生成的內(nèi)容,主要就靠“猜”——遇到?jīng)]學(xué)過(guò)的內(nèi)容,會(huì)根據(jù)概率猜一個(gè)最可能的答案來(lái)補(bǔ)全,尤其是在回答開(kāi)放性問(wèn)題時(shí),大模型常會(huì)編細(xì)節(jié)讓答案看起來(lái)更完整,即便這是一個(gè)錯(cuò)誤的答案。
另外,太多質(zhì)量參差不齊的數(shù)據(jù),也會(huì)讓大模型“犯迷糊”,這些數(shù)據(jù)很可能相互矛盾,訓(xùn)練出來(lái)的大模型就容易說(shuō)出前后矛盾或完全錯(cuò)誤的話。
但是,AI幻覺(jué)也并非洪水猛獸。很多人想不到的是,人類也會(huì)產(chǎn)生幻覺(jué),甚至依賴幻覺(jué)做出決策。
2025世界人工智能大會(huì)主論壇上,深度學(xué)習(xí)之父、2024年物理學(xué)諾獎(jiǎng)得主杰弗里·辛頓語(yǔ)出驚人:人們理解語(yǔ)言的方式和大語(yǔ)言模型理解語(yǔ)言的方式幾乎一樣,人類有可能就是大語(yǔ)言模型,人類也會(huì)和大語(yǔ)言模型一樣產(chǎn)生幻覺(jué)。
前不久,OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic創(chuàng)始人公開(kāi)表示,大模型產(chǎn)生幻覺(jué)的頻率可能比人類還低,只是它們出錯(cuò)的方式經(jīng)常出人意料。
把“二次核查”權(quán)利交給用戶
既然AI幻覺(jué)無(wú)法徹底消除,那么盡可能減少幻覺(jué)概率,成了大模型落地應(yīng)用必須跨越的門(mén)檻。
實(shí)踐證明,不斷優(yōu)化算法和構(gòu)建可控信源,能有效降低AI幻覺(jué)的負(fù)面影響。例如,階躍星辰為大模型增加了“深入核查”的功能,保證模型輸出結(jié)果的可信性。
階躍AI的“深入核查”功能。
據(jù)階躍AI產(chǎn)品負(fù)責(zé)人陳男群告訴記者,“深入核查”能調(diào)用大模型自身的四種能力:強(qiáng)大的信息獲取引擎、交叉信源核查、信源權(quán)威性評(píng)估和提供引用來(lái)源。
“階躍AI融合了各類搜索源和網(wǎng)頁(yè)信息解析工具,實(shí)時(shí)獲取互聯(lián)網(wǎng)上大量信息,以彌補(bǔ)信源不足的短板。同時(shí)還能追蹤事實(shí)陳述、數(shù)據(jù)引用等關(guān)鍵信息的來(lái)源,通過(guò)不同信息源進(jìn)行交叉驗(yàn)證。更關(guān)鍵的是,我們會(huì)盡可能找到一手的、具備權(quán)威性的專業(yè)信源,并讓模型理解不同信源渠道的可信度差異?!标惸腥航榻B,階躍AI的特別之處在于“不輸出‘事實(shí)’輸出證據(jù)”,不讓AI說(shuō)“假、大、空”的定性結(jié)論,輸出內(nèi)容的同時(shí)還提供多個(gè)引用來(lái)源、原始網(wǎng)頁(yè)、發(fā)布時(shí)間等詳細(xì)信息,為用戶提供“二次核查”的依據(jù)。
據(jù)悉,階躍AI的“深入核查”獲取了2000多個(gè)優(yōu)質(zhì)信源,文獻(xiàn)庫(kù)數(shù)量超過(guò)1000萬(wàn)篇,試運(yùn)行一周內(nèi)就登上了海外AI產(chǎn)品榜單前十名,收到用戶正面反饋。
原標(biāo)題:《DeepSeek幻覺(jué)率達(dá)21%,今年WAIC研究勸退“一本正經(jīng)胡說(shuō)八道”》
欄目主編:李曄
來(lái)源:作者:解放日?qǐng)?bào)查睿
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。