孩子在假期里鬧著要養(yǎng)小寵物,有什么好養(yǎng)又沒有較大氣味的小可愛?
多模態(tài)大模型(MLLM)在高層次視覺理解與推理任務上展現(xiàn)出驚艷能力。然而,如果你仔細觀察,就會發(fā)現(xiàn)一個的事實:它們在一些看似簡單、直觀、人類幼兒都能輕松完成的任務中,卻頻頻「翻車」。
比如,「一個玩具被遮住后還在嗎?」、「液體倒入不同形狀容器后,體積變了嗎?」、「兩個物體靠近會發(fā)生碰撞嗎?
這是否意味著MLLM的先天認知結(jié)構(gòu)中,缺少那些支撐早期人類學習的基礎知識機制?也就是說,它們是否缺乏「coreknowledge」(核心認知能力)?
ICML2025高分論文(initialscore4443),揭示了MLLM的「核心認知盲區(qū)」。
來自UCSanDiego的新研究《CoreKnowledgeDeficitsinMulti-ModalLanguageModels》(發(fā)表于ICML2025)對這一問題進行了系統(tǒng)、深入的分析。
論文標題:CoreKnowledgeDeficitsinMulti-ModalLanguageModels論文鏈接:https://arxiv.org/pdf/2410.10855
研究發(fā)現(xiàn):目前主流MLLM廣泛缺乏核心認知能力,且該能力不能通過模型規(guī)模擴展自然習得。
為此,作者構(gòu)建了一個創(chuàng)新性的多模態(tài)測評體系CoreCognition,并提出一種獨特的「干預測試」方法ConceptHacking,旨在揭示模型是否真的「理解」任務背后的核心知識,還是只是「蒙對了答案」。
構(gòu)建CoreCognition:
一種跨模態(tài)認知評估基準
「核心知識」概念來自發(fā)展心理學,尤其是皮亞杰(Piaget)關于人類認知發(fā)展的經(jīng)典理論。研究指出,人類在嬰兒期就已經(jīng)具備一些對世界最基本、最普遍的認知能力,構(gòu)成我們理解物體、空間、因果、意圖等的基礎。研究團隊受皮亞杰認知發(fā)展理論啟發(fā),提出CoreCognition:一個規(guī)模龐大、聚焦「核心知識」的多模態(tài)測評體系。其亮點在于:
覆蓋全面:12項核心認知概念覆蓋了從感知運動期(如邊界感、連續(xù)性、物體恒存、空間知覺、知覺恒常性、直覺物理)到混合期(如視角理解、層級關系、守恒理解)再到形式運算期(如意圖識別、機械推理、工具使用)三個階段。這種分層設計幫助深入剖析模型在不同認知層級上的表現(xiàn)差異。數(shù)據(jù)豐富,測試廣泛:數(shù)據(jù)集共包含1503個圖像-問題對,并通過230款主流多模態(tài)模型×11種prompt設計,生成2530個評估數(shù)據(jù)點,有效覆蓋不同模型規(guī)模與指令理解能力。設計嚴謹:
1.判別性強(Discriminativeness):每一道題目都經(jīng)過精心設計,使得缺乏目標核心知識的模型必然傾向于選擇錯誤答案,從而有效區(qū)分模型能力。
2.混淆最小(MinimalConfounding):問題盡量避免對目標概念以外能力產(chǎn)生依賴,減少與其他核心知識的概念交叉。
3.無文本捷徑(MinimalTextShortcut):所有問題均設計為必須結(jié)合圖像和語言信息進行多模態(tài)推理,防止模型僅通過語言模式識別猜出正確答案。
質(zhì)量把控嚴格:所有數(shù)據(jù)由12位具備認知科學、計算機科學或統(tǒng)計學背景的高年級本科或研究生協(xié)作完成標注與審核,確保標注質(zhì)量的一致性與學術嚴謹性。
數(shù)據(jù)集設計既參考發(fā)展心理學與認知科學,又貼近AI實驗范式,兼顧理論可靠性與工程可行性,是首次正式將「核心知識」搬進大模型測試框架。
四大關鍵發(fā)現(xiàn)
1.模型在基礎認知任務中存在明顯不足:大模型缺乏基礎認知,尤其是最簡單的認知能力,在諸如邊界感、持續(xù)性、空間性等簡單、直觀的任務中,模型性能遠低于對更復雜事物(如層級推理、意圖理解等)的理解能力。這些本應是「常識」的內(nèi)容,模型卻無法掌握,說明其缺乏對世界基本結(jié)構(gòu)的理解。
2.模型無法有效利用基礎認知支撐高級能力:模型在高層認知上的表現(xiàn),不一定與低層認知水平直接掛鉤。說明模型并未形成穩(wěn)固的認知體系,模型的高級推理感知并不是建立在基礎的認知能力上的。這也能解釋為什么模型出現(xiàn)魯棒性缺陷(即不能持續(xù)穩(wěn)定的正確回答問題)。
3.增加模型規(guī)模并不能顯著提升基礎認知能力:研究顯示模型的基礎認知能力無法通過簡單擴展規(guī)模獲得顯著提升。盡管模型參數(shù)量提升帶來了高級推理能力的提升,但對低級認知幫助較小,甚至某些基礎能力會出現(xiàn)規(guī)模越大越差的反?,F(xiàn)象。
4.Reasoningmodel并沒有表現(xiàn)出明顯優(yōu)勢:System-2reasoning也不能有效幫忙模型學習或者推理基礎認知能力,這說明模型可能在pretrain階段就缺乏基礎認知能力。
ConceptHacking:
干預測試揭示「假理解」陷阱
為了進一步驗證模型是否真的掌握核心概念,作者提出了ConceptHacking(概念干預)方法:通過構(gòu)造「對照組」(control)與「干預組」(manipulated),故意在測試圖文中反轉(zhuǎn)關鍵特征,但保持其余條件一致。從而區(qū)分「真正理解」與「投機取巧」:
若在正常與反轉(zhuǎn)任務中均表現(xiàn)良好,說明模型具備真實的認知能力。若僅在正常任務表現(xiàn)好,但反轉(zhuǎn)任務失敗,說明模型在依賴虛假的認知捷徑。若在正常任務表現(xiàn)差,則表明模型既沒有掌握核心知識,也沒有建立認知捷徑。
實驗證明,很多模型在正常圖文任務中表現(xiàn)良好,但一旦關鍵特征被微調(diào),預測結(jié)果大幅崩潰,說明其并非真正理解「核心概念」,而是更加依賴淺顯易得的捷徑學習。
意義與啟示
文章揭示多模態(tài)大模型(MLLMs)缺乏核心知識,而且這種知識并不能僅靠規(guī)模擴展獲得—模型規(guī)模越大,越會在復雜任務上「表面優(yōu)雅」,但更難在基礎認知上實現(xiàn)真正理解。這印證了經(jīng)典的「Moravec悖論」:對人類來說最簡單的認知任務,對AI卻最困難。這對當前以規(guī)模為主的發(fā)展路徑構(gòu)成了根本性挑戰(zhàn),表明其難以通向類似人類的通用智能。
認知科學啟示:人類以核心認知為基礎構(gòu)建更高級認知,MLLM卻缺乏這種認知搭建的scaffold結(jié)構(gòu)。技術發(fā)展挑戰(zhàn):簡單地增加參數(shù)規(guī)模、訓練數(shù)據(jù),并不能自動帶來核心認知能力。未來方向指引:或許需要在模型預訓練階段顯式注入物理、空間等常識,主動「灌輸」這些核心認知能力;探索認知引導訓練機制,以引入「顯式概念學習」;開發(fā)更多高度控制的認知能力評測。
本文作者介紹:
黎羿江,在約翰斯?霍普金斯大學獲得數(shù)據(jù)碩士學位,現(xiàn)在是加州大學圣地亞哥分校一年級博士生,主要研究方向聚焦于人工智能的學習方向,旨在實現(xiàn)高效和魯棒的學習,并應用于多模態(tài)、交互式以及三維具身環(huán)境中。
高清瀅,于約翰斯?霍普金斯大學獲得碩士學位,目前正在該校攻讀計算機科學博士學位。她隸屬于約翰斯?霍普金斯醫(yī)學院旗下的Wilmer眼科研究所,Lions視覺研究與康復中心,以及工程與醫(yī)學人工智能實驗室。她的研究興趣包括視覺-語言模型的可解釋性和面向低視力人群的自主導航技術。
趙天維,是約翰斯?霍普金斯大學計算機科學碩士研究生。他的研究興趣包括從認知科學視角評估、理解與增強多模態(tài)模型(特別是其推理能力),以及優(yōu)化多智能體系統(tǒng)中的規(guī)劃與協(xié)同機制。
汪冰洋,在埃默里大學獲得了理學碩士、理學學士和工商管理學士學位。她的研究興趣包括多模態(tài)融合以及從混合模態(tài)中高效提取信號。
孫浩然,于2024年獲得約翰斯?霍普金斯大學應用數(shù)學碩士學位。其主要研究方向包括醫(yī)學數(shù)據(jù)科學以及機器學習在心臟病學中的應用。
羅得之,是密歇根大學溫博格認知科學研究院的大四學生。他曾在倫敦大學學院心理與語言科學系訪學,并曾任倫敦大學哲學研究所的人工智能學者。他的研究興趣為認知科學與人工智能的理論基礎,尤其關注意識、自我加工與核心認知。
HokinDeng,是卡內(nèi)基梅隆大學的訪問研究科學家。他曾在哈佛大學擔任計算機視覺工程師,設計了首套用于單細胞認知實驗的實驗基礎設施。在此之前,他是約翰霍普金斯醫(yī)院的神經(jīng)工程師,并在MetaRealityLabs擔任附屬研究科學家。他共同領導了開源項目「像孩子一樣培養(yǎng)人工智能(GrowAI)」,并聯(lián)合組織了多場聚焦計算機科學、神經(jīng)科學與哲學交叉領域的研討會。此前,他曾在約翰霍普金斯大學學習神經(jīng)科學與哲學。
雷雨天 別進山 山野小鎮(zhèn)的少年余樊, 一直謹記父親臨終前的忠告, 當一個安分守己的獵戶 他從未想過小鎮(zhèn)外面的世界是什么樣子, 只想守著母親, 長大以后討房媳婦, 像祖祖輩輩一樣繁衍后代, 生生不息。 直到有一天, 小鎮(zhèn)來幾個陌生的“ 仙人” 。 雷聲起時, 少年終于還是進了山, 從此走上了一條注定無法停下腳步的長生路。