多模態(tài)大模型(MLLM)在高層次視覺(jué)理解與推理任務(wù)上展現(xiàn)出驚艷能力。然而,如果你仔細(xì)觀察,就會(huì)發(fā)現(xiàn)一個(gè)的事實(shí):它們?cè)谝恍┛此坪?jiǎn)單、直觀、人類幼兒都能輕松完成的任務(wù)中,卻頻頻「翻車」。
比如,「一個(gè)玩具被遮住后還在嗎?」、「液體倒入不同形狀容器后,體積變了嗎?」、「兩個(gè)物體靠近會(huì)發(fā)生碰撞嗎?
這是否意味著MLLM的先天認(rèn)知結(jié)構(gòu)中,缺少那些支撐早期人類學(xué)習(xí)的基礎(chǔ)知識(shí)機(jī)制?也就是說(shuō),它們是否缺乏「coreknowledge」(核心認(rèn)知能力)?
ICML2025高分論文(initialscore4443),揭示了MLLM的「核心認(rèn)知盲區(qū)」。
來(lái)自UCSanDiego的新研究《CoreKnowledgeDeficitsinMulti-ModalLanguageModels》(發(fā)表于ICML2025)對(duì)這一問(wèn)題進(jìn)行了系統(tǒng)、深入的分析。
論文標(biāo)題:CoreKnowledgeDeficitsinMulti-ModalLanguageModels論文鏈接:https://arxiv.org/pdf/2410.10855
研究發(fā)現(xiàn):目前主流MLLM廣泛缺乏核心認(rèn)知能力,且該能力不能通過(guò)模型規(guī)模擴(kuò)展自然習(xí)得。
為此,作者構(gòu)建了一個(gè)創(chuàng)新性的多模態(tài)測(cè)評(píng)體系CoreCognition,并提出一種獨(dú)特的「干預(yù)測(cè)試」方法ConceptHacking,旨在揭示模型是否真的「理解」任務(wù)背后的核心知識(shí),還是只是「蒙對(duì)了答案」。
構(gòu)建CoreCognition:
一種跨模態(tài)認(rèn)知評(píng)估基準(zhǔn)
「核心知識(shí)」概念來(lái)自發(fā)展心理學(xué),尤其是皮亞杰(Piaget)關(guān)于人類認(rèn)知發(fā)展的經(jīng)典理論。研究指出,人類在嬰兒期就已經(jīng)具備一些對(duì)世界最基本、最普遍的認(rèn)知能力,構(gòu)成我們理解物體、空間、因果、意圖等的基礎(chǔ)。研究團(tuán)隊(duì)受皮亞杰認(rèn)知發(fā)展理論啟發(fā),提出CoreCognition:一個(gè)規(guī)模龐大、聚焦「核心知識(shí)」的多模態(tài)測(cè)評(píng)體系。其亮點(diǎn)在于:
覆蓋全面:12項(xiàng)核心認(rèn)知概念覆蓋了從感知運(yùn)動(dòng)期(如邊界感、連續(xù)性、物體恒存、空間知覺(jué)、知覺(jué)恒常性、直覺(jué)物理)到混合期(如視角理解、層級(jí)關(guān)系、守恒理解)再到形式運(yùn)算期(如意圖識(shí)別、機(jī)械推理、工具使用)三個(gè)階段。這種分層設(shè)計(jì)幫助深入剖析模型在不同認(rèn)知層級(jí)上的表現(xiàn)差異。數(shù)據(jù)豐富,測(cè)試廣泛:數(shù)據(jù)集共包含1503個(gè)圖像-問(wèn)題對(duì),并通過(guò)230款主流多模態(tài)模型×11種prompt設(shè)計(jì),生成2530個(gè)評(píng)估數(shù)據(jù)點(diǎn),有效覆蓋不同模型規(guī)模與指令理解能力。設(shè)計(jì)嚴(yán)謹(jǐn):
1.判別性強(qiáng)(Discriminativeness):每一道題目都經(jīng)過(guò)精心設(shè)計(jì),使得缺乏目標(biāo)核心知識(shí)的模型必然傾向于選擇錯(cuò)誤答案,從而有效區(qū)分模型能力。
2.混淆最小(MinimalConfounding):?jiǎn)栴}盡量避免對(duì)目標(biāo)概念以外能力產(chǎn)生依賴,減少與其他核心知識(shí)的概念交叉。
3.無(wú)文本捷徑(MinimalTextShortcut):所有問(wèn)題均設(shè)計(jì)為必須結(jié)合圖像和語(yǔ)言信息進(jìn)行多模態(tài)推理,防止模型僅通過(guò)語(yǔ)言模式識(shí)別猜出正確答案。
質(zhì)量把控嚴(yán)格:所有數(shù)據(jù)由12位具備認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)或統(tǒng)計(jì)學(xué)背景的高年級(jí)本科或研究生協(xié)作完成標(biāo)注與審核,確保標(biāo)注質(zhì)量的一致性與學(xué)術(shù)嚴(yán)謹(jǐn)性。
數(shù)據(jù)集設(shè)計(jì)既參考發(fā)展心理學(xué)與認(rèn)知科學(xué),又貼近AI實(shí)驗(yàn)范式,兼顧理論可靠性與工程可行性,是首次正式將「核心知識(shí)」搬進(jìn)大模型測(cè)試框架。
四大關(guān)鍵發(fā)現(xiàn)
1.模型在基礎(chǔ)認(rèn)知任務(wù)中存在明顯不足:大模型缺乏基礎(chǔ)認(rèn)知,尤其是最簡(jiǎn)單的認(rèn)知能力,在諸如邊界感、持續(xù)性、空間性等簡(jiǎn)單、直觀的任務(wù)中,模型性能遠(yuǎn)低于對(duì)更復(fù)雜事物(如層級(jí)推理、意圖理解等)的理解能力。這些本應(yīng)是「常識(shí)」的內(nèi)容,模型卻無(wú)法掌握,說(shuō)明其缺乏對(duì)世界基本結(jié)構(gòu)的理解。
2.模型無(wú)法有效利用基礎(chǔ)認(rèn)知支撐高級(jí)能力:模型在高層認(rèn)知上的表現(xiàn),不一定與低層認(rèn)知水平直接掛鉤。說(shuō)明模型并未形成穩(wěn)固的認(rèn)知體系,模型的高級(jí)推理感知并不是建立在基礎(chǔ)的認(rèn)知能力上的。這也能解釋為什么模型出現(xiàn)魯棒性缺陷(即不能持續(xù)穩(wěn)定的正確回答問(wèn)題)。
3.增加模型規(guī)模并不能顯著提升基礎(chǔ)認(rèn)知能力:研究顯示模型的基礎(chǔ)認(rèn)知能力無(wú)法通過(guò)簡(jiǎn)單擴(kuò)展規(guī)模獲得顯著提升。盡管模型參數(shù)量提升帶來(lái)了高級(jí)推理能力的提升,但對(duì)低級(jí)認(rèn)知幫助較小,甚至某些基礎(chǔ)能力會(huì)出現(xiàn)規(guī)模越大越差的反?,F(xiàn)象。
4.Reasoningmodel并沒(méi)有表現(xiàn)出明顯優(yōu)勢(shì):System-2reasoning也不能有效幫忙模型學(xué)習(xí)或者推理基礎(chǔ)認(rèn)知能力,這說(shuō)明模型可能在pretrain階段就缺乏基礎(chǔ)認(rèn)知能力。
ConceptHacking:
干預(yù)測(cè)試揭示「假理解」陷阱
為了進(jìn)一步驗(yàn)證模型是否真的掌握核心概念,作者提出了ConceptHacking(概念干預(yù))方法:通過(guò)構(gòu)造「對(duì)照組」(control)與「干預(yù)組」(manipulated),故意在測(cè)試圖文中反轉(zhuǎn)關(guān)鍵特征,但保持其余條件一致。從而區(qū)分「真正理解」與「投機(jī)取巧」:
若在正常與反轉(zhuǎn)任務(wù)中均表現(xiàn)良好,說(shuō)明模型具備真實(shí)的認(rèn)知能力。若僅在正常任務(wù)表現(xiàn)好,但反轉(zhuǎn)任務(wù)失敗,說(shuō)明模型在依賴虛假的認(rèn)知捷徑。若在正常任務(wù)表現(xiàn)差,則表明模型既沒(méi)有掌握核心知識(shí),也沒(méi)有建立認(rèn)知捷徑。
實(shí)驗(yàn)證明,很多模型在正常圖文任務(wù)中表現(xiàn)良好,但一旦關(guān)鍵特征被微調(diào),預(yù)測(cè)結(jié)果大幅崩潰,說(shuō)明其并非真正理解「核心概念」,而是更加依賴淺顯易得的捷徑學(xué)習(xí)。
意義與啟示
文章揭示多模態(tài)大模型(MLLMs)缺乏核心知識(shí),而且這種知識(shí)并不能僅靠規(guī)模擴(kuò)展獲得—模型規(guī)模越大,越會(huì)在復(fù)雜任務(wù)上「表面優(yōu)雅」,但更難在基礎(chǔ)認(rèn)知上實(shí)現(xiàn)真正理解。這印證了經(jīng)典的「Moravec悖論」:對(duì)人類來(lái)說(shuō)最簡(jiǎn)單的認(rèn)知任務(wù),對(duì)AI卻最困難。這對(duì)當(dāng)前以規(guī)模為主的發(fā)展路徑構(gòu)成了根本性挑戰(zhàn),表明其難以通向類似人類的通用智能。
認(rèn)知科學(xué)啟示:人類以核心認(rèn)知為基礎(chǔ)構(gòu)建更高級(jí)認(rèn)知,MLLM卻缺乏這種認(rèn)知搭建的scaffold結(jié)構(gòu)。技術(shù)發(fā)展挑戰(zhàn):簡(jiǎn)單地增加參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù),并不能自動(dòng)帶來(lái)核心認(rèn)知能力。未來(lái)方向指引:或許需要在模型預(yù)訓(xùn)練階段顯式注入物理、空間等常識(shí),主動(dòng)「灌輸」這些核心認(rèn)知能力;探索認(rèn)知引導(dǎo)訓(xùn)練機(jī)制,以引入「顯式概念學(xué)習(xí)」;開發(fā)更多高度控制的認(rèn)知能力評(píng)測(cè)。
本文作者介紹:
黎羿江,在約翰斯?霍普金斯大學(xué)獲得數(shù)據(jù)碩士學(xué)位,現(xiàn)在是加州大學(xué)圣地亞哥分校一年級(jí)博士生,主要研究方向聚焦于人工智能的學(xué)習(xí)方向,旨在實(shí)現(xiàn)高效和魯棒的學(xué)習(xí),并應(yīng)用于多模態(tài)、交互式以及三維具身環(huán)境中。
高清瀅,于約翰斯?霍普金斯大學(xué)獲得碩士學(xué)位,目前正在該校攻讀計(jì)算機(jī)科學(xué)博士學(xué)位。她隸屬于約翰斯?霍普金斯醫(yī)學(xué)院旗下的Wilmer眼科研究所,Lions視覺(jué)研究與康復(fù)中心,以及工程與醫(yī)學(xué)人工智能實(shí)驗(yàn)室。她的研究興趣包括視覺(jué)-語(yǔ)言模型的可解釋性和面向低視力人群的自主導(dǎo)航技術(shù)。
趙天維,是約翰斯?霍普金斯大學(xué)計(jì)算機(jī)科學(xué)碩士研究生。他的研究興趣包括從認(rèn)知科學(xué)視角評(píng)估、理解與增強(qiáng)多模態(tài)模型(特別是其推理能力),以及優(yōu)化多智能體系統(tǒng)中的規(guī)劃與協(xié)同機(jī)制。
汪冰洋,在埃默里大學(xué)獲得了理學(xué)碩士、理學(xué)學(xué)士和工商管理學(xué)士學(xué)位。她的研究興趣包括多模態(tài)融合以及從混合模態(tài)中高效提取信號(hào)。
孫浩然,于2024年獲得約翰斯?霍普金斯大學(xué)應(yīng)用數(shù)學(xué)碩士學(xué)位。其主要研究方向包括醫(yī)學(xué)數(shù)據(jù)科學(xué)以及機(jī)器學(xué)習(xí)在心臟病學(xué)中的應(yīng)用。
羅得之,是密歇根大學(xué)溫博格認(rèn)知科學(xué)研究院的大四學(xué)生。他曾在倫敦大學(xué)學(xué)院心理與語(yǔ)言科學(xué)系訪學(xué),并曾任倫敦大學(xué)哲學(xué)研究所的人工智能學(xué)者。他的研究興趣為認(rèn)知科學(xué)與人工智能的理論基礎(chǔ),尤其關(guān)注意識(shí)、自我加工與核心認(rèn)知。
HokinDeng,是卡內(nèi)基梅隆大學(xué)的訪問(wèn)研究科學(xué)家。他曾在哈佛大學(xué)擔(dān)任計(jì)算機(jī)視覺(jué)工程師,設(shè)計(jì)了首套用于單細(xì)胞認(rèn)知實(shí)驗(yàn)的實(shí)驗(yàn)基礎(chǔ)設(shè)施。在此之前,他是約翰霍普金斯醫(yī)院的神經(jīng)工程師,并在MetaRealityLabs擔(dān)任附屬研究科學(xué)家。他共同領(lǐng)導(dǎo)了開源項(xiàng)目「像孩子一樣培養(yǎng)人工智能(GrowAI)」,并聯(lián)合組織了多場(chǎng)聚焦計(jì)算機(jī)科學(xué)、神經(jīng)科學(xué)與哲學(xué)交叉領(lǐng)域的研討會(huì)。此前,他曾在約翰霍普金斯大學(xué)學(xué)習(xí)神經(jīng)科學(xué)與哲學(xué)。
TOP5極佳的娛樂(lè)明星經(jīng)典小說(shuō)
《總裁獨(dú)寵絕色佳妻》 作者:愛聽音樂(lè)的人內(nèi)容簡(jiǎn)介:臨城茶葉世家夏氏千金夏丹若,容貌絕美,出神入化的茶藝是臨城上流社會(huì)公認(rèn)的“茶仙子”,她是著名劇作家藍(lán)天,四星茶藝師鳳梅,才貌雙全,龍墨衍,A國(guó)四大世家之首龍氏的總裁,權(quán)勢(shì)滔天,商界天才。傳聞他冷漠無(wú)情,不近女色,他遇見她一見鐘情,是他今生唯一的愛,心甘情愿走向?qū)櫰薏粴w路_-。(點(diǎn)擊下方免費(fèi)閱讀)今天等我繼續(xù)說(shuō)。 (點(diǎn)擊下方免費(fèi)閱讀)第三本:《總裁獨(dú)寵絕色佳妻》作者:愛聽音樂(lè)的人(寵文:冷漠無(wú)情的他,卻對(duì)她一見鐘情,心甘情愿走向?qū)櫰薏粴w路)簡(jiǎn)介:臨城茶葉世家夏氏千金夏丹若,容貌絕美,出神入化的茶藝是臨城上流社會(huì)公認(rèn)的“茶仙子”,她是著名劇作家藍(lán)天,四星茶藝師鳳梅,才貌雙全,龍墨衍,A國(guó)四大世家之首有幫助請(qǐng)點(diǎn)贊_。寵文:她啪嘰一聲掉桀驁囂張總裁懷里,被牢牢拴住,獨(dú)寵一生!