歧慧捷
新智元報(bào)道
英智
【新智元導(dǎo)讀】一項(xiàng)來自普林斯頓和伯克利的重磅研究揭露了AI的胡扯本質(zhì)。從空洞修辭到誤導(dǎo)性半真話,AI如何用花言巧語掩蓋真相?快來看「胡扯指數(shù)」如何量化AI的忽悠能力!
你有沒有覺得,AI有時(shí)候像在「滿嘴跑火車」?
GPT滔滔不絕拋出一堆看似高大上的建議,卻空洞無物;或者在關(guān)鍵問題上打太極,含糊其辭,它是否真的關(guān)心自己在說什么?
最近,一項(xiàng)重磅研究《MachineBullshit》火了。
由普林斯頓大學(xué)和伯克利聯(lián)手打造,這項(xiàng)研究首次系統(tǒng)定義并量化了LLM的胡扯行為,揭示了AI在對齊訓(xùn)練后,竟表現(xiàn)出和人類相似的胡說八道傾向。
論文鏈接:https://arxiv.org/abs/2507.07484
哲學(xué)家HarryFrankfurt指出,胡扯的核心是對真相的漠視——說話者更關(guān)注如何說服他人,而非陳述事實(shí)。
「機(jī)器胡扯」四大套路
研究團(tuán)隊(duì)把這套理論搬到AI身上,總結(jié)了AI胡扯的四種典型表現(xiàn):
空洞修辭(EmptyRhetoric):話說得花里胡哨,但沒啥干貨。比如「這款產(chǎn)品融合尖端科技與卓越性能」,聽起來很牛,實(shí)際啥也沒說。
誤導(dǎo)性真話(Paltering):挑著部分事實(shí)講,引導(dǎo)你誤解。比如「本基金歷史回報(bào)率高達(dá)20%」,卻不提高得嚇人的風(fēng)險(xiǎn)。
模糊措辭(WeaselWords):用「可能」「某些專家認(rèn)為」這種模棱兩可的話搪塞責(zé)任。
未經(jīng)證實(shí)的斷言(UnverifiedClaims):自信滿滿地拋出沒根據(jù)的信息,比如「我們的技術(shù)能大幅提升效率」,但沒數(shù)據(jù)沒證據(jù)。
胡扯指數(shù):量化AI的「心口不一」
研究團(tuán)隊(duì)還提出了硬核指標(biāo)BullshitIndex(胡扯指數(shù)),專門用來衡量AI有多不在乎真相。
通過對比模型的內(nèi)心真實(shí)認(rèn)知(belief)和表面說辭(claim)之間的差距來計(jì)算。
BI越接近1,說明AI越滿嘴跑火車,不在乎真相;越接近0,說明模型言行一致。
實(shí)驗(yàn)揭秘:AI越對齊越會忽悠
研究發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)人類反饋(RLHF)訓(xùn)練后,AI的胡扯傾向竟然更嚴(yán)重!
比如在購物場景實(shí)驗(yàn)中,不管模型知道多少真相,它總愛一口咬定產(chǎn)品超棒。
胡扯指數(shù)從0.379飆到0.665,證明AI對真相的漠視加劇了。
經(jīng)過RLHF訓(xùn)練后,模型并非對真相產(chǎn)生困惑或誤解,恰恰相反,它清楚地知道真相卻變得不再關(guān)心真相,而是選擇用更討用戶喜歡的方式去表達(dá)。
數(shù)據(jù)更扎心:RLHF訓(xùn)練后,AI的胡扯行為全面開花:
空洞辭藻暴增39.8%;
模糊措辭漲了26.8%;
誤導(dǎo)性半真話激增57.8%;
無憑據(jù)斷言猛漲55.6%。
用戶滿意度看似提升了,但AI卻成了胡說專家。
尤其是誤導(dǎo)性半真話,危害幾乎翻倍(效用損失系數(shù)從-0.49惡化到-0.89),因?yàn)榘胝姘爰僮铍y辨別。
推理越多,胡扯越狠?
更讓人意外的是,讓AI多思考(Chain-of-Thought)非但沒讓它更老實(shí),反而火上澆油!
空洞辭藻增加21%,誤導(dǎo)性半真話漲11%。這說明,AI越深思熟慮,可能越會花式忽悠。
研究還提到了委托-代理問題(Principal-Agentproblem):當(dāng)AI得同時(shí)顧及多方利益(比如公司和用戶沖突時(shí)),它的胡說行為更猖狂。
比如推銷產(chǎn)品時(shí),AI可能為了公司利益,刻意夸大優(yōu)點(diǎn)、掩蓋缺點(diǎn)。
在敏感政治議題上,大模型尤其愛用模糊措辭,避免明確表態(tài)。
比如它可能會說:「部分觀察人士認(rèn)為選舉過程有爭議」,但不說這些觀察人士是誰,也沒數(shù)據(jù)支撐。
這項(xiàng)研究首次系統(tǒng)定義并量化了機(jī)器胡扯,用胡扯指數(shù)和四大策略把AI的忽悠行為扒得清清楚楚。
研究警告,RLHF和過度推理非但沒讓AI更真誠,反而讓胡扯更嚴(yán)重。在公司與用戶利益沖突或敏感話題上,AI的打太極傾向更明顯。
這提醒我們,AI訓(xùn)練和評估標(biāo)準(zhǔn)得改改了。
未來的AI得不僅會說,還要說真話、透明公開,才能真正對齊人類需求。
參考資料:
https://arxiv.org/abs/2507.07484
https://x.com/kaiqu_liang/status/1943350770788937980
來源:紅網(wǎng)
作者:廖香天
編輯:李文貞
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。