劉宗翰
機器之心報道
冷貓、陳陳
2018年,LSTM之父JürgenSchmidhuber在論文中(Recurrentworldmodelsfacilitatepolicyevolution)推廣了世界模型(worldmodel)的概念,這是一種神經網絡,它能夠根據智能體過去的觀察與動作,預測環(huán)境的未來狀態(tài)。
近年來,世界模型逐漸受到大家的關注,當然也包括深度學習三巨頭之一的YannLeCun,他將世界模型視為通向人類智能的核心路徑。
然而,訓練出有效的世界模型仍面臨諸多挑戰(zhàn)。
首先是數(shù)據問題:大規(guī)模、高質量的視頻數(shù)據集獲取成本高昂,尤其是在包含動作標注的情況下。目前世界模型的成功應用仍然局限于特定領域,如自動駕駛或電子游戲等。
其次,任務本身也非常困難:在無約束、部分可觀測的環(huán)境中,準確建模物理規(guī)律與行為仍是一個尚未解決的問題,即使只考慮短時間尺度也是如此。目前最先進的基于像素的生成模型對計算資源的消耗極其龐大,例如COSMOS的訓練耗時高達2200萬GPU小時。
更令人擔憂的是,這種算力可能被浪費在無關緊要的細節(jié)上。比如,在自動駕駛系統(tǒng)中,為了預測未來場景而去建模每一片樹葉在風中的精確運動,并無必要。因此,以合適的抽象層級建模環(huán)境,對于提升世界模型的效率與效果至關重要。
最后,如何評估預訓練的視頻世界模型本身也是一大難題。
為了解決上述問題,來自Meta的研究者提出了一個強大的通用視頻世界模型DINO-world,用于預測未來幀。在實現(xiàn)方法上,DINO-world在凍結的視覺編碼器(如DINOv2)潛在空間中預訓練視頻世界模型,隨后再通過動作數(shù)據進行后訓練,以實現(xiàn)規(guī)劃與控制。
論文地址:https://arxiv.org/pdf/2507.19468v1論文標題:BacktotheFeatures:DINOasaFoundationforVideoWorldModels
這一方法具有多個優(yōu)勢:
將視頻預訓練與基于動作-條件的微調解耦,可以利用大量未標注的視頻學習通用知識,從而顯著降低對標注數(shù)據的需求;訓練潛在世界模型,避開了像素級建模帶來的挑戰(zhàn),而像素級建模對大多數(shù)下游任務來說并非必要;凍結的編碼器DINO能直接提供強大的語義和幾何理解能力,加速了學習過程,并避免了同時訓練編碼器與預測器所帶來的技術復雜性。
此外,該研究還引入了一種更高效的世界模型架構,相比當前最先進的模型,在訓練與推理階段都顯著減少了資源消耗。
在一個包含約6000萬條未經清洗的網絡視頻的大規(guī)模數(shù)據集上訓練預測器,使其能夠獲得可以良好遷移到不同領域的通用特征。
在VSPW分割預測任務中,當預測未來0.5秒發(fā)生什么時,模型的mIoU提高了6.3%,顯著優(yōu)于第二佳模型。在對動作數(shù)據進行后訓練并在規(guī)劃任務上進行評估時,實驗結果進一步驗證了大規(guī)模無監(jiān)督預訓練的優(yōu)勢。
方法介紹
圖1概述了DINO-world主要組件,包括幀編碼器(frameencoder)和未來預測器(futurepredictor)。
幀編碼器
當今幾乎所有世界模型都不再直接建模像素,而是基于視頻塊(videopatches)的潛在表示進行建模。以V-JEPA為例,它包含一個編碼器和一個預測器,這兩個組件是聯(lián)合優(yōu)化的。
與此不同,本文選擇使用專為表征學習而設計、并通過自監(jiān)督訓練的基礎模型DINOv2對視頻幀進行編碼。
在這種潛在空間中進行建模顯著降低了訓練預測器所需的計算成本。實際上,本文成功實現(xiàn)了參數(shù)量少于10億的世界模型的有效訓練,而當前最先進的生成式模型(如COSMOS)的參數(shù)規(guī)模可高達120億。
預測器架構和訓練
架構。本文將預測任務建模為一個解碼問題,并將預測器設計為由N個殘差預歸一化交叉注意力塊堆疊而成的結構。
在最后一個模塊之后,通過一個線性映射將查詢tokenq投影為預測的patchtoken。
位置編碼。在上述建模形式中,查詢向量q和上下文特征x并不攜帶關于其在視頻中位置的信息。為了使模型能夠理解token之間的時空關系,本文在多頭注意力機制中引入了旋轉位置編碼(RoPE)。
具體而言,本文將注意力頭的維度D?分成三部分,分別對每個token的時間坐標、水平坐標和垂直坐標進行編碼。
對于空間坐標(i,j),采用定義在[?1,+1]2網格上的相對位置表示,從而確保輸入分辨率的變化不會影響patch之間的相對距離。
而對于時間坐標τ,采用以秒為單位的絕對時間戳,使得模型能夠區(qū)分高幀率與低幀率的序列,并具備對更長視頻進行外推的能力。
訓練目標。為了便于并行化,本文采用「下一幀預測」作為訓練目標,即令t′=t+1,并使用teacherforcing策略。在給定T幀的序列下,關于第t+1幀的查詢只能訪問到第t幀及之前的patchtoken。對于參數(shù)為θ的預測器,其訓練目標如下:
相比之下,掩碼重建類的損失(如V-JEPA或DINO-Foresight)僅對掩碼位置的token計算損失,這些token只占處理總量的一小部分。
可變幀率(VariableFPS)。對于每段視頻,本文從預設范圍[Δτ_min,Δτ_max]中均勻采樣T?1個時間間隔,并通過累加這些間隔以及一個隨機起始點來生成T個時間戳。
這樣一來,解碼出最接近的幀及其實際時間戳用于訓練。該方法確保了模型在訓練時能夠接觸到均勻分布的時間間隔,從而具備更強的時間泛化能力。
動作條件微調
本文提出的視頻世界模型可以通過自監(jiān)督的方式,在大規(guī)模無標注視頻數(shù)據集上進行訓練。然而,許多下游應用往往涉及某種條件信號,例如智能體的動作或語言指令,而這類數(shù)據通常較為有限。
本文關注的是以觀測-動作對(v_t,a_t)表示的智能體軌跡。
在預訓練的視頻世界模型基礎上,本文提出了一種簡單的適配方法,用于將預測第t+1幀的過程與當前動作a_t相結合。
實驗結果
密集預測任務
本文在Cityscapes、VSPW和KITTI數(shù)據集上進行了評估。
評估類型包括:短期預測,即預測約200毫秒后的幀;以及中期預測,目標時間點為0.5秒后。
表1結果表明,DINO-world世界模型優(yōu)于像V-JEPA這樣的聯(lián)合預測架構,也優(yōu)于像COSMOS這樣的生成模型。DINO-Foresight在Cityscapes和KITTI上略微占優(yōu),這歸因于其在駕駛視頻上的領域特定訓練。
然而,DINO-world在多個評測基準上表現(xiàn)穩(wěn)健,驗證了這一范式的有效性:在凍結的自監(jiān)督學習編碼器基礎上訓練潛在空間的世界模型。事實上,相較于V-JEPA,本文預測的特征質量更高;相較于COSMOS,本文對視頻動態(tài)的建模也更為準確。
表1:密集預測。當前表現(xiàn)與預測表現(xiàn)之間的差距越小,說明世界模型越強。
直覺物理(Intuitivephysics)
本文采用了三個直覺物理測試基準:IntPhys、GRASP和InfLevel。并基于模型的預測定義了一個驚訝分數(shù)(surprisescore),用于衡量模型輸出與預期物理行為的偏差。
從表2的結果可以看出,所有在大規(guī)模數(shù)據集上訓練的世界模型均表現(xiàn)出一定程度的物理理解能力。DINO-world的表現(xiàn)與使用更大編碼器的V-JEPAViT-H相當。DINO-Foresight在IntPhys和GRASP上的相對劣勢,可歸因于其訓練域未包含合成視頻。COSMOS在相對簡單的IntPhys任務中表現(xiàn)幾乎完美,但在另外兩個任務上明顯不足。
表2:直覺物理測試基準,報告了所有視頻類別的平均相對準確率。
實驗表明,潛在空間世界模型在性能上具有顯著優(yōu)勢,同時也凸顯了大規(guī)模預訓練的重要性。
動作條件微調與規(guī)劃評估
本文以預訓練的基礎模型為起點,在每個環(huán)境的離線軌跡上對動作條件模型訓練25個epoch,使用幀數(shù)T=4、分辨率為224像素的視頻片段。
作為對比,本文還訓練了兩個模型:一個是僅訓練動作模塊、凍結其他所有參數(shù)的模型,另一個則是從頭開始訓練的模型。
表4報告了每個環(huán)境下、512個測試回合中的成功率。主要發(fā)現(xiàn)是,與從零訓練相比,大規(guī)模預訓練顯著提升了模型性能。作者預計,在更復雜、與預訓練數(shù)據分布更接近的環(huán)境中,這一性能提升將更加明顯。
表4:規(guī)劃評估。規(guī)劃器在動作條件世界模型的潛在空間中展開候選軌跡并進行優(yōu)化,其成功率如表所示。
更多實驗細節(jié)、消融實驗,請參閱原論文。
熱血巨作《抗日之鐵血智將》,這個主角簡直要封神!
這種情況下,王平再也不是司令部以前那個默默無聞的作戰(zhàn)參謀,無論走到哪里,大家看向他的目光都充滿了欽佩,而且都回很尊敬的喊一句王參謀。王平不想走到哪里都被人議論,但他心里清楚,這樣的結局對他很有好處--。在司令部有了好的口碑,將來外出帶兵,或者是晉升的時候,別人才不會說閑話。鬼子占領縣城后,騎兵好了吧!
孤膽英雄抗日傳奇,作戰(zhàn)參謀逆襲成鐵血智將,橫掃戰(zhàn)場成戰(zhàn)神!
今日推薦:近期高搜小說盤點,《抗日之鐵血智將》風光無二,承包不眠夜《抗日之鐵血智將》 作者:574981 內容簡介:臨危受命反圍剿!孤軍深入建根據地!孤身一人下江南,看主角如何從一個作戰(zhàn)參謀在抗日戰(zhàn)場殺成一代戰(zhàn)神?。c擊下方免費閱讀)《抗戰(zhàn)之重生天狼戰(zhàn)將》 作者:烈陽化海內容簡介:一支裝備落后的說完了-|。
史上最熱經典之作《抗日之鐵血智將》,被安排的明明白白
點擊下方閱讀更多免費章節(jié))書名:《抗日之鐵血智將》作者:574981 摘選:從新兵中間找了一個靈泛的戰(zhàn)士給鐘玉生當副手后,還特批二十發(fā)子彈讓鐘玉生到后面切身體會一下打歪把子機槍的感覺。所有問題全部交待清楚后,王平剛準備去看看新兵掌握三八式步槍的熟練程度。曾全就一臉凝重摸了過來-?!巴鯀⒅\,警衛(wèi)連方向的好了吧!
來源:紅網
作者:經愉心
編輯:方智淵
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網立場。轉載請附原文出處鏈接和本聲明。