鄭家銘
多模態(tài)大模型(MLLM)在高層次視覺理解與推理任務(wù)上展現(xiàn)出驚艷能力。然而,如果你仔細觀察,就會發(fā)現(xiàn)一個的事實:它們在一些看似簡單、直觀、人類幼兒都能輕松完成的任務(wù)中,卻頻頻「翻車」。
比如,「一個玩具被遮住后還在嗎?」、「液體倒入不同形狀容器后,體積變了嗎?」、「兩個物體靠近會發(fā)生碰撞嗎?
這是否意味著MLLM的先天認知結(jié)構(gòu)中,缺少那些支撐早期人類學(xué)習(xí)的基礎(chǔ)知識機制?也就是說,它們是否缺乏「coreknowledge」(核心認知能力)?
ICML2025高分論文(initialscore4443),揭示了MLLM的「核心認知盲區(qū)」。
來自UCSanDiego的新研究《CoreKnowledgeDeficitsinMulti-ModalLanguageModels》(發(fā)表于ICML2025)對這一問題進行了系統(tǒng)、深入的分析。
論文標題:CoreKnowledgeDeficitsinMulti-ModalLanguageModels論文鏈接:https://arxiv.org/pdf/2410.10855
研究發(fā)現(xiàn):目前主流MLLM廣泛缺乏核心認知能力,且該能力不能通過模型規(guī)模擴展自然習(xí)得。
為此,作者構(gòu)建了一個創(chuàng)新性的多模態(tài)測評體系CoreCognition,并提出一種獨特的「干預(yù)測試」方法ConceptHacking,旨在揭示模型是否真的「理解」任務(wù)背后的核心知識,還是只是「蒙對了答案」。
構(gòu)建CoreCognition:
一種跨模態(tài)認知評估基準
「核心知識」概念來自發(fā)展心理學(xué),尤其是皮亞杰(Piaget)關(guān)于人類認知發(fā)展的經(jīng)典理論。研究指出,人類在嬰兒期就已經(jīng)具備一些對世界最基本、最普遍的認知能力,構(gòu)成我們理解物體、空間、因果、意圖等的基礎(chǔ)。研究團隊受皮亞杰認知發(fā)展理論啟發(fā),提出CoreCognition:一個規(guī)模龐大、聚焦「核心知識」的多模態(tài)測評體系。其亮點在于:
覆蓋全面:12項核心認知概念覆蓋了從感知運動期(如邊界感、連續(xù)性、物體恒存、空間知覺、知覺恒常性、直覺物理)到混合期(如視角理解、層級關(guān)系、守恒理解)再到形式運算期(如意圖識別、機械推理、工具使用)三個階段。這種分層設(shè)計幫助深入剖析模型在不同認知層級上的表現(xiàn)差異。數(shù)據(jù)豐富,測試廣泛:數(shù)據(jù)集共包含1503個圖像-問題對,并通過230款主流多模態(tài)模型×11種prompt設(shè)計,生成2530個評估數(shù)據(jù)點,有效覆蓋不同模型規(guī)模與指令理解能力。設(shè)計嚴謹:
1.判別性強(Discriminativeness):每一道題目都經(jīng)過精心設(shè)計,使得缺乏目標核心知識的模型必然傾向于選擇錯誤答案,從而有效區(qū)分模型能力。
2.混淆最?。∕inimalConfounding):問題盡量避免對目標概念以外能力產(chǎn)生依賴,減少與其他核心知識的概念交叉。
3.無文本捷徑(MinimalTextShortcut):所有問題均設(shè)計為必須結(jié)合圖像和語言信息進行多模態(tài)推理,防止模型僅通過語言模式識別猜出正確答案。
質(zhì)量把控嚴格:所有數(shù)據(jù)由12位具備認知科學(xué)、計算機科學(xué)或統(tǒng)計學(xué)背景的高年級本科或研究生協(xié)作完成標注與審核,確保標注質(zhì)量的一致性與學(xué)術(shù)嚴謹性。
數(shù)據(jù)集設(shè)計既參考發(fā)展心理學(xué)與認知科學(xué),又貼近AI實驗范式,兼顧理論可靠性與工程可行性,是首次正式將「核心知識」搬進大模型測試框架。
四大關(guān)鍵發(fā)現(xiàn)
1.模型在基礎(chǔ)認知任務(wù)中存在明顯不足:大模型缺乏基礎(chǔ)認知,尤其是最簡單的認知能力,在諸如邊界感、持續(xù)性、空間性等簡單、直觀的任務(wù)中,模型性能遠低于對更復(fù)雜事物(如層級推理、意圖理解等)的理解能力。這些本應(yīng)是「常識」的內(nèi)容,模型卻無法掌握,說明其缺乏對世界基本結(jié)構(gòu)的理解。
2.模型無法有效利用基礎(chǔ)認知支撐高級能力:模型在高層認知上的表現(xiàn),不一定與低層認知水平直接掛鉤。說明模型并未形成穩(wěn)固的認知體系,模型的高級推理感知并不是建立在基礎(chǔ)的認知能力上的。這也能解釋為什么模型出現(xiàn)魯棒性缺陷(即不能持續(xù)穩(wěn)定的正確回答問題)。
3.增加模型規(guī)模并不能顯著提升基礎(chǔ)認知能力:研究顯示模型的基礎(chǔ)認知能力無法通過簡單擴展規(guī)模獲得顯著提升。盡管模型參數(shù)量提升帶來了高級推理能力的提升,但對低級認知幫助較小,甚至某些基礎(chǔ)能力會出現(xiàn)規(guī)模越大越差的反?,F(xiàn)象。
4.Reasoningmodel并沒有表現(xiàn)出明顯優(yōu)勢:System-2reasoning也不能有效幫忙模型學(xué)習(xí)或者推理基礎(chǔ)認知能力,這說明模型可能在pretrain階段就缺乏基礎(chǔ)認知能力。
ConceptHacking:
干預(yù)測試揭示「假理解」陷阱
為了進一步驗證模型是否真的掌握核心概念,作者提出了ConceptHacking(概念干預(yù))方法:通過構(gòu)造「對照組」(control)與「干預(yù)組」(manipulated),故意在測試圖文中反轉(zhuǎn)關(guān)鍵特征,但保持其余條件一致。從而區(qū)分「真正理解」與「投機取巧」:
若在正常與反轉(zhuǎn)任務(wù)中均表現(xiàn)良好,說明模型具備真實的認知能力。若僅在正常任務(wù)表現(xiàn)好,但反轉(zhuǎn)任務(wù)失敗,說明模型在依賴虛假的認知捷徑。若在正常任務(wù)表現(xiàn)差,則表明模型既沒有掌握核心知識,也沒有建立認知捷徑。
實驗證明,很多模型在正常圖文任務(wù)中表現(xiàn)良好,但一旦關(guān)鍵特征被微調(diào),預(yù)測結(jié)果大幅崩潰,說明其并非真正理解「核心概念」,而是更加依賴淺顯易得的捷徑學(xué)習(xí)。
意義與啟示
文章揭示多模態(tài)大模型(MLLMs)缺乏核心知識,而且這種知識并不能僅靠規(guī)模擴展獲得—模型規(guī)模越大,越會在復(fù)雜任務(wù)上「表面優(yōu)雅」,但更難在基礎(chǔ)認知上實現(xiàn)真正理解。這印證了經(jīng)典的「Moravec悖論」:對人類來說最簡單的認知任務(wù),對AI卻最困難。這對當(dāng)前以規(guī)模為主的發(fā)展路徑構(gòu)成了根本性挑戰(zhàn),表明其難以通向類似人類的通用智能。
認知科學(xué)啟示:人類以核心認知為基礎(chǔ)構(gòu)建更高級認知,MLLM卻缺乏這種認知搭建的scaffold結(jié)構(gòu)。技術(shù)發(fā)展挑戰(zhàn):簡單地增加參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù),并不能自動帶來核心認知能力。未來方向指引:或許需要在模型預(yù)訓(xùn)練階段顯式注入物理、空間等常識,主動「灌輸」這些核心認知能力;探索認知引導(dǎo)訓(xùn)練機制,以引入「顯式概念學(xué)習(xí)」;開發(fā)更多高度控制的認知能力評測。
本文作者介紹:
黎羿江,在約翰斯?霍普金斯大學(xué)獲得數(shù)據(jù)碩士學(xué)位,現(xiàn)在是加州大學(xué)圣地亞哥分校一年級博士生,主要研究方向聚焦于人工智能的學(xué)習(xí)方向,旨在實現(xiàn)高效和魯棒的學(xué)習(xí),并應(yīng)用于多模態(tài)、交互式以及三維具身環(huán)境中。
高清瀅,于約翰斯?霍普金斯大學(xué)獲得碩士學(xué)位,目前正在該校攻讀計算機科學(xué)博士學(xué)位。她隸屬于約翰斯?霍普金斯醫(yī)學(xué)院旗下的Wilmer眼科研究所,Lions視覺研究與康復(fù)中心,以及工程與醫(yī)學(xué)人工智能實驗室。她的研究興趣包括視覺-語言模型的可解釋性和面向低視力人群的自主導(dǎo)航技術(shù)。
趙天維,是約翰斯?霍普金斯大學(xué)計算機科學(xué)碩士研究生。他的研究興趣包括從認知科學(xué)視角評估、理解與增強多模態(tài)模型(特別是其推理能力),以及優(yōu)化多智能體系統(tǒng)中的規(guī)劃與協(xié)同機制。
汪冰洋,在埃默里大學(xué)獲得了理學(xué)碩士、理學(xué)學(xué)士和工商管理學(xué)士學(xué)位。她的研究興趣包括多模態(tài)融合以及從混合模態(tài)中高效提取信號。
孫浩然,于2024年獲得約翰斯?霍普金斯大學(xué)應(yīng)用數(shù)學(xué)碩士學(xué)位。其主要研究方向包括醫(yī)學(xué)數(shù)據(jù)科學(xué)以及機器學(xué)習(xí)在心臟病學(xué)中的應(yīng)用。
羅得之,是密歇根大學(xué)溫博格認知科學(xué)研究院的大四學(xué)生。他曾在倫敦大學(xué)學(xué)院心理與語言科學(xué)系訪學(xué),并曾任倫敦大學(xué)哲學(xué)研究所的人工智能學(xué)者。他的研究興趣為認知科學(xué)與人工智能的理論基礎(chǔ),尤其關(guān)注意識、自我加工與核心認知。
HokinDeng,是卡內(nèi)基梅隆大學(xué)的訪問研究科學(xué)家。他曾在哈佛大學(xué)擔(dān)任計算機視覺工程師,設(shè)計了首套用于單細胞認知實驗的實驗基礎(chǔ)設(shè)施。在此之前,他是約翰霍普金斯醫(yī)院的神經(jīng)工程師,并在MetaRealityLabs擔(dān)任附屬研究科學(xué)家。他共同領(lǐng)導(dǎo)了開源項目「像孩子一樣培養(yǎng)人工智能(GrowAI)」,并聯(lián)合組織了多場聚焦計算機科學(xué)、神經(jīng)科學(xué)與哲學(xué)交叉領(lǐng)域的研討會。此前,他曾在約翰霍普金斯大學(xué)學(xué)習(xí)神經(jīng)科學(xué)與哲學(xué)。
李嘉誠:最新透露“經(jīng)商之道”普通人如何改變,如何賺大錢
2、你一定要先想到失敗,從前我們中國人有句做生意的話:“未買先想賣”,你還沒有買進來,你就先想怎么賣出去,你應(yīng)該先想失敗會怎么樣。買和賣構(gòu)成了一組正反面,未買先想賣——這是辯證法立足于反面、走向正面的原理,同樣,要想成功,一定要要考慮到失敗會怎么樣——也即既能對付成功、又能對付失敗,..
李嘉誠:從塑膠花到千億帝國,一生不虧錢的秘密是什么?
大師問道:“您希望未來擁有多少財富才算滿足?”李嘉誠答道:“如果我能擁有3000萬,就心滿意足了?!贝髱焻s說:“您的命格遠不止3000萬。您的財庫并非平凡,而是源源不斷?!边@位大師就是當(dāng)時29歲的陳伯。陳伯,本名陳朗,出生于四川青城山,是一位道教奇人。他幼年時曾經(jīng)路過街頭攤位,被相術(shù)吸引,對玄學(xué)堪輿說完了-。
李嘉誠佛學(xué)西用身價過億,曾經(jīng)秘密透露,做到這四點很重要
李嘉誠的生意為什么做這么大?如果一定要深究原因的話最重要的一點就是比別人快一點_-。就像他手里帶的那只幾百美元的星辰表一樣,為什么他要把秒針調(diào)快半個小時,目的就是要走在別人前面,他可以等別人,但是決不允許別人等自己;除此之外,就是非常重視現(xiàn)金流,他說過世界變化太快,如果不重視現(xiàn)金流是不足以應(yīng)對還有呢?
來源:紅網(wǎng)
作者:李博仁
編輯:張景昆
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。