許平緯
Video-TT團(tuán)隊(duì)投稿量子位|公眾號(hào)QbitAI
視頻大型語(yǔ)言模型(VideoLLMs)的發(fā)展日新月異,它們似乎能夠精準(zhǔn)描述視頻內(nèi)容、準(zhǔn)確的回答相關(guān)問(wèn)題,展現(xiàn)出足以亂真的人類級(jí)理解力。
但有一個(gè)非常本質(zhì)的問(wèn)題始終縈繞著研究者的心頭:這些模型是真的“理解”了視頻,還是僅僅在進(jìn)行一種高級(jí)的“模式匹配”?
為了解決上述問(wèn)題,來(lái)自南洋理工大學(xué)S-Lab的研究者們提出了一個(gè)全新的、極具挑戰(zhàn)性的基準(zhǔn)測(cè)試——VideoThinkingTest(簡(jiǎn)稱Video-TT)。
其核心目標(biāo)簡(jiǎn)單而深刻:將“看”與“想”的能力分離,精準(zhǔn)測(cè)量AI在視頻內(nèi)容上的真實(shí)理解和推理水平。
研究團(tuán)隊(duì)有三項(xiàng)關(guān)鍵發(fā)現(xiàn):
(1)人類在視頻理解的“準(zhǔn)確率”和“魯棒性”上遠(yuǎn)超SOTA級(jí)模型(50%),差距顯著。
(2)開(kāi)源模型在“魯棒性”上遠(yuǎn)遜GPT-4o(SOTA模型之一)。
(3)GPT-4o的短板在于:對(duì)模糊或非常規(guī)內(nèi)容識(shí)別能力弱;對(duì)多場(chǎng)景區(qū)分、定位、計(jì)算能力有困難;世界知識(shí)對(duì)應(yīng)能力欠缺,無(wú)法理解意圖、社會(huì)動(dòng)態(tài)等深層信息。
Video-TT圖靈測(cè)試集由南洋理工大學(xué)S-Lab科研團(tuán)隊(duì)聯(lián)合獨(dú)立研究員共同研發(fā)完成。主要作者包括南洋理工大學(xué)博士生張?jiān)?、董宇昊,二人的研究方向聚焦多模態(tài)模型;通訊作者為南洋理工大學(xué)助理教授劉子緯。
Video-TT的問(wèn)題定位
人類的智慧核心在于其正確性(Correctness)和魯棒性(Robustness)。
正確性意味著我們能準(zhǔn)確地解讀信息,而魯棒性則保證了我們?cè)诿鎸?duì)信息干擾、歧義或不同表述時(shí),依然能保持正確的判斷。這兩者結(jié)合,才構(gòu)成了真正可靠的理解能力。
現(xiàn)有的視頻理解基準(zhǔn)測(cè)試(Benchmark)在衡量AI是否達(dá)到人類級(jí)智慧上存在著一些根本性的缺陷。它們往往無(wú)法區(qū)分模型是因?yàn)椤皼](méi)看清”而犯錯(cuò)(即關(guān)鍵視頻幀采樣不足),還是因?yàn)椤皼](méi)想明白”而出錯(cuò)(即缺乏真正的推理能力)。
這種混淆使得我們很難評(píng)估AI在視頻理解上的真實(shí)水平。
在Video-TT出現(xiàn)之前,視頻理解領(lǐng)域已有相應(yīng)的評(píng)測(cè)標(biāo)準(zhǔn),但這些標(biāo)準(zhǔn)普遍存在一定局限性,導(dǎo)致AI的真實(shí)能力無(wú)法被準(zhǔn)確衡量。
問(wèn)題一:長(zhǎng)視頻評(píng)測(cè)的“幀采樣悖論”
近期,許多研究都聚焦于長(zhǎng)視頻理解。然而由于計(jì)算資源限制,模型無(wú)法處理視頻的每一幀,只能“跳著看”(稀疏采樣)。
這就帶來(lái)一個(gè)問(wèn)題:當(dāng)模型答錯(cuò)時(shí),我們無(wú)法確定是它能力不行,還是運(yùn)氣不好,恰好錯(cuò)過(guò)了包含答案的關(guān)鍵幀。
如下圖所示,在一些長(zhǎng)視頻評(píng)測(cè)中(如VideoMME-Long),即便是強(qiáng)大的GPT-4o,其性能也可能因?yàn)椴蓸訋瑪?shù)的限制而大幅下降。這種下降反映的更多是“采樣策略”的失敗,而非“理解能力”的不足。
問(wèn)題二:短視頻評(píng)測(cè)的“天花板幻覺(jué)”
與長(zhǎng)視頻相對(duì),短視頻評(píng)測(cè)(如VideoMME-Short)由于時(shí)長(zhǎng)較短,模型可以幾乎“看完”所有幀。在這種情況下,一些頂尖模型的表現(xiàn)接近甚至達(dá)到了人類水平(上圖左側(cè)),這容易給人一種“短視頻理解問(wèn)題已被基本解決”的錯(cuò)覺(jué)。
然而,事實(shí)遠(yuǎn)非如此。Video-TT的研究者們認(rèn)為,即便在信息密集的短視頻中,依然存在大量需要深度推理和復(fù)雜認(rèn)知才能解決的挑戰(zhàn)。簡(jiǎn)單地提升準(zhǔn)確率分?jǐn)?shù),并不能證明AI擁有了與人類同等的智慧。
Video-TT的破局創(chuàng)新點(diǎn)在于,它選擇了1000條全新的YouTube短視頻(避免數(shù)據(jù)污染),并精心設(shè)計(jì)問(wèn)題的標(biāo)注,確保答案能在有限的、統(tǒng)一的80幀內(nèi)找到。
這樣一來(lái),所有模型都在同一起跑線上“看”素材,評(píng)測(cè)的焦點(diǎn)便從“如何有效采樣”轉(zhuǎn)移到了“能否深刻理解”上,從而撥開(kāi)迷霧,直擊AI的“思考”核心。
突出“思考”能力的問(wèn)題設(shè)計(jì)
要衡量“思考”,就必須提出能夠激發(fā)“思考”的問(wèn)題。Video-TT的設(shè)計(jì)原則是,一個(gè)復(fù)雜的問(wèn)題并非由其類型決定(如“物體顏色”vs“情節(jié)理解”),而是由其背后的上下文、原因和場(chǎng)景決定。
研究團(tuán)隊(duì)從“認(rèn)知科學(xué)”和“影視敘事學(xué)”中汲取靈感,構(gòu)建了兩個(gè)核心的復(fù)雜性維度:視覺(jué)復(fù)雜度和敘事復(fù)雜度。
維度一:視覺(jué)復(fù)雜度(VisualComplexity)
這部分關(guān)注的是視頻畫(huà)面的內(nèi)在挑戰(zhàn),共包含四個(gè)方面:
模糊與非常規(guī)內(nèi)容(Unclear&UnusualContent)視頻中是否存在干擾、模糊、遮擋,或者出現(xiàn)了與我們?nèi)粘UJ(rèn)知相悖的物體或現(xiàn)象?運(yùn)動(dòng)速度(MovementSpeed)物體或鏡頭的移動(dòng)是否過(guò)快,導(dǎo)致難以識(shí)別或追蹤?時(shí)空布局(Spatial-temporalArrangement)場(chǎng)景中物體的位置關(guān)系和互動(dòng)是否復(fù)雜?是否存在大量的時(shí)空信息需要處理?視錯(cuò)覺(jué)(Illusions)視頻是否利用了拍攝技巧或內(nèi)容本身來(lái)制造錯(cuò)覺(jué),挑戰(zhàn)觀眾的直覺(jué)?
維度二:敘事復(fù)雜度(NarrativeComplexity)
這部分關(guān)注的是視頻作為一種“故事”的表達(dá)方式,其內(nèi)在的邏輯和深度,同樣包含四個(gè)方面:
復(fù)雜情節(jié)(ComplexPlot)故事線是否存在反轉(zhuǎn)或意想不到的結(jié)局?敘事剪輯(NarrativeEditing)是否使用了蒙太奇等復(fù)雜的剪輯手法來(lái)講述故事,而非平鋪直敘?技術(shù)性剪輯(TechnicalEditing)是否存在難以察覺(jué)的、與內(nèi)容融為一體的特效或后期處理?世界知識(shí)(WorldKnowledge)理解視頻是否需要依賴超越畫(huà)面本身的世界常識(shí)、文化背景或社會(huì)規(guī)范?
例如,上圖中的Q-8提問(wèn)“視頻中的女士在模仿什么行為?”,這需要觀眾擁有關(guān)于“特定活動(dòng)”(被子彈擊中后倒下)的世界知識(shí)才能正確回答。這些問(wèn)題迫使模型超越簡(jiǎn)單的物體識(shí)別,進(jìn)入真正的推理(Reasoning)層面。
AI思考的“魯棒”檢驗(yàn)
擁有了能讓AI“思考”的難題還不夠,我們還需要知道它的思考有多“魯棒”(Robustness)。一個(gè)魯棒的模型,不應(yīng)該因?yàn)橛脩舯硎龅姆椒ㄉ杂懈淖兙徒o出截然不同的答案。
為此,Video-TT為每一個(gè)核心難題(PrimaryQuestion)都配備了四種“自然對(duì)抗性問(wèn)題”(NaturalAdversarialQuestions),形成一套完整的測(cè)試體系。
這五種問(wèn)題類型分別是:
核心問(wèn)題(PrimaryOpen-endedQuestion)基于視覺(jué)和敘事復(fù)雜度設(shè)計(jì)的開(kāi)放式的問(wèn)題。復(fù)述問(wèn)題(RephrasedQuestion)用不同的措辭問(wèn)同一個(gè)問(wèn)題(例如,“誰(shuí)的頭被拍了?”),模型的答案理應(yīng)保持一致。正確誘導(dǎo)問(wèn)題(Correctly-ledQuestion)問(wèn)題中包含正確的線索(例如,“他拍的是穿8號(hào)球衣的球員的頭嗎?”),這測(cè)試模型能否利用提示來(lái)確認(rèn)事實(shí)。錯(cuò)誤誘導(dǎo)問(wèn)題(Wrongly-ledQuestion)問(wèn)題中包含錯(cuò)誤的、誤導(dǎo)性的線索(例如,“他拍的是穿9號(hào)球衣的球員的頭嗎?”),這對(duì)于模型來(lái)說(shuō)是最大的考驗(yàn),它必須足夠“自信”地否定錯(cuò)誤的誘導(dǎo)。多項(xiàng)選擇問(wèn)題(Multiple-choiceQuestion)將正確和錯(cuò)誤的誘導(dǎo)信息作為選項(xiàng),考察模型在有明確選項(xiàng)時(shí)的辨別能力。
只有當(dāng)模型能夠準(zhǔn)確回答核心問(wèn)題(正確性),并且在面對(duì)各種“變體”提問(wèn)時(shí)仍能保持判斷一致(魯棒性),我們才能說(shuō)它達(dá)到了真正的、類人的理解水平。
評(píng)測(cè)結(jié)果與分析
經(jīng)過(guò)如此嚴(yán)苛的設(shè)計(jì),Video-TT的評(píng)測(cè)結(jié)果揭示了一個(gè)驚人的事實(shí):目前的SOTA模型,在視頻思維能力上,與人類相比仍有巨大鴻溝。
從數(shù)據(jù)中可以清晰地看到:
人類遙遙領(lǐng)先人類測(cè)試者在正確性上達(dá)到84.3%,魯棒性達(dá)到64.4%,展現(xiàn)了強(qiáng)大的理解與推理能力。GPT-4o表現(xiàn)腰斬作為當(dāng)前最強(qiáng)的多模態(tài)模型之一,GPT-4o的正確率僅為36.6%,不足人類的一半。其36.0%的魯棒性得分也表明,它在面對(duì)干擾時(shí)同樣表現(xiàn)不佳。開(kāi)源模型仍需努力雖然部分開(kāi)源模型在多選題上能與GPT-4o媲美,但在更考驗(yàn)真實(shí)理解能力的開(kāi)放式問(wèn)題上,差距顯著。這說(shuō)明,現(xiàn)有的許多其他基準(zhǔn)測(cè)試可能因?yàn)閭?cè)重選擇題而高估了模型的能力。
這一巨大的分?jǐn)?shù)差距有力地證明,當(dāng)前的AI在真正成為AGI的道路上,尤其是在視頻理解這一核心領(lǐng)域,依然任重而道遠(yuǎn)。
對(duì)AI的錯(cuò)誤類型進(jìn)行分析??梢钥闯?,“復(fù)雜情節(jié)”(ComplexPlot)和“世界知識(shí)”(WorldKnowledge)是導(dǎo)致模型在高級(jí)認(rèn)知任務(wù)中失敗的主要原因。
Video-TT的作者們對(duì)GPT-4o的錯(cuò)誤答案進(jìn)行了深入的定性分析,發(fā)現(xiàn)了三大核心弱點(diǎn):
弱點(diǎn)一:時(shí)空混淆——“理不清”時(shí)間與空間
在需要理解時(shí)空關(guān)系的任務(wù)中,模型錯(cuò)誤率極高。
物體計(jì)數(shù)模型很難精確追蹤隨時(shí)間變化的物體。例如,在一個(gè)視頻中,墻上的相框先出現(xiàn),然后移出畫(huà)面,再重新出現(xiàn)。模型可以數(shù)清單幀內(nèi)的相框數(shù)量,但無(wú)法正確計(jì)算整個(gè)過(guò)程中出現(xiàn)過(guò)的不同相框總數(shù)。序列定位當(dāng)越多事件被排序到一條視頻里,模型越分不清問(wèn)題里的語(yǔ)義內(nèi)容和視頻的具體關(guān)聯(lián)。比如,單一事件場(chǎng)景下,它可能知道“翻跟斗”這個(gè)動(dòng)作、也知道怎么數(shù)數(shù)定位,但在多事件場(chǎng)景里,卻無(wú)法正確數(shù)數(shù)定位到第二位“翻跟斗”的視頻人物。
弱點(diǎn)二:常識(shí)缺失——“看不懂”言外之意
許多錯(cuò)誤源于模型缺乏人類社會(huì)和文化中的常識(shí)(WorldKnowledge)。
角色動(dòng)機(jī)與情感模型可以描述一個(gè)人的表情是“平靜的”,但無(wú)法結(jié)合上下文(例如,剛剛在比賽中獲得銀牌)理解這種“平靜”背后其實(shí)是“失望”。人類知道“銀牌得主通常比銅牌得主更失落”,因?yàn)樗麄冸x金牌僅一步之遙,而模型沒(méi)有這種深層社會(huì)心理知識(shí)。
弱點(diǎn)三:復(fù)雜情節(jié)理解失敗——“串不起”故事線
當(dāng)視頻敘事需要跨場(chǎng)景、跨線索進(jìn)行邏輯推理時(shí),模型往往會(huì)“掉線”。
因果關(guān)系鏈條斷裂在一條視頻中,第一個(gè)場(chǎng)景是一個(gè)人在房屋附近打棒球,而第二個(gè)場(chǎng)景是展示房屋的押金被扣除。模型可以分別描述這兩個(gè)場(chǎng)景,但無(wú)法將它們聯(lián)系起來(lái),推理出“因?yàn)榘羟虮淮蛉胛堇?,破壞了房屋,所以押金被扣”這一核心的因果關(guān)系。它會(huì)錯(cuò)誤地認(rèn)為視頻只是在展示“買棒球棒花了多少錢(qián)”。
Video-TT這一評(píng)測(cè)基準(zhǔn)提示相關(guān)研究者,在看到AI技術(shù)進(jìn)步的同時(shí),也需留意其存在的不足,該領(lǐng)域的探索仍需不斷深入。
論文鏈接:https://arxiv.org/abs/2507.15028數(shù)據(jù)集:https://huggingface.co/datasets/lmms-lab/video-tt項(xiàng)目主頁(yè):https://zhangyuanhan-ai.github.io/video-tt/
村上春樹(shù):喜歡是想要占有的偏執(zhí),愛(ài)是想觸碰卻又收回手的克制
一、《囚愛(ài)之鐐》【內(nèi)容】他不停灌他癡傻藥,只因?yàn)樽约簮?ài)的卑微癡狂。中學(xué)時(shí)候的男主,因?yàn)槠僚⒌那橐猓l(fā)后續(xù)的一系列悲劇,從此患上一種難堪的心理疾病,家人的保護(hù)最終帶他走出陰影,可是誰(shuí)也不會(huì)想到,有些事,有些人,原本就是注定好的,奈何他平生最恨,一是哭泣,二是禁忌之戀。然而一場(chǎng)場(chǎng)的騙有幫助請(qǐng)點(diǎn)贊|。
4本古言甜文,男主偏執(zhí)瘋批占有欲強(qiáng),從始至終只愛(ài)一個(gè)她!
1. 偏執(zhí)狂的愛(ài)的核心特征偏執(zhí)狂的愛(ài)通常具有以下核心特征:強(qiáng)烈的情感體驗(yàn):偏執(zhí)狂在戀愛(ài)中常常體驗(yàn)到極度的快樂(lè)、興奮和痛苦——|。他們的情緒波動(dòng)極大,常常因?yàn)閷?duì)方的一舉一動(dòng)而產(chǎn)生強(qiáng)烈的反應(yīng)_。高度的占有欲:偏執(zhí)狂傾向于將所愛(ài)之人視為自己的私有物,希望完全占有對(duì)方。他們難以忍受與他人分享自己的愛(ài)人——。對(duì)未來(lái)的后面會(huì)介紹_。
男主偏執(zhí)病態(tài)文:他占有欲超強(qiáng)且瘋狂極致,《嫁給林安深》未上榜
簡(jiǎn)介:《誘寵,嬌妻撩人》他偏執(zhí)的占有欲,從初見(jiàn)她就開(kāi)始瘋狂滋長(zhǎng)!他是奮起上進(jìn)的商界新秀,家世顯赫,長(zhǎng)相才能更是萬(wàn)里挑一,是當(dāng)之無(wú)愧的天之驕子-_。他是刀口舔血的黑道之王,如豹子一般掠奪成性,只要他看上的獵物,從無(wú)失手。她是聰慧機(jī)智的‘落難’大小姐,驕傲決絕,她的愛(ài)情,寧為玉碎不為瓦全-。上一有幫助請(qǐng)點(diǎn)贊-。
來(lái)源:紅網(wǎng)
作者:黃良琴
編輯:愚初蝶
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。