機(jī)器之心報(bào)道
冷貓、陳陳
2018年,LSTM之父JürgenSchmidhuber在論文中(Recurrentworldmodelsfacilitatepolicyevolution)推廣了世界模型(worldmodel)的概念,這是一種神經(jīng)網(wǎng)絡(luò),它能夠根據(jù)智能體過(guò)去的觀察與動(dòng)作,預(yù)測(cè)環(huán)境的未來(lái)狀態(tài)。
近年來(lái),世界模型逐漸受到大家的關(guān)注,當(dāng)然也包括深度學(xué)習(xí)三巨頭之一的YannLeCun,他將世界模型視為通向人類(lèi)智能的核心路徑。
然而,訓(xùn)練出有效的世界模型仍面臨諸多挑戰(zhàn)。
首先是數(shù)據(jù)問(wèn)題:大規(guī)模、高質(zhì)量的視頻數(shù)據(jù)集獲取成本高昂,尤其是在包含動(dòng)作標(biāo)注的情況下。目前世界模型的成功應(yīng)用仍然局限于特定領(lǐng)域,如自動(dòng)駕駛或電子游戲等。
其次,任務(wù)本身也非常困難:在無(wú)約束、部分可觀測(cè)的環(huán)境中,準(zhǔn)確建模物理規(guī)律與行為仍是一個(gè)尚未解決的問(wèn)題,即使只考慮短時(shí)間尺度也是如此。目前最先進(jìn)的基于像素的生成模型對(duì)計(jì)算資源的消耗極其龐大,例如COSMOS的訓(xùn)練耗時(shí)高達(dá)2200萬(wàn)GPU小時(shí)。
更令人擔(dān)憂(yōu)的是,這種算力可能被浪費(fèi)在無(wú)關(guān)緊要的細(xì)節(jié)上。比如,在自動(dòng)駕駛系統(tǒng)中,為了預(yù)測(cè)未來(lái)場(chǎng)景而去建模每一片樹(shù)葉在風(fēng)中的精確運(yùn)動(dòng),并無(wú)必要。因此,以合適的抽象層級(jí)建模環(huán)境,對(duì)于提升世界模型的效率與效果至關(guān)重要。
最后,如何評(píng)估預(yù)訓(xùn)練的視頻世界模型本身也是一大難題。
為了解決上述問(wèn)題,來(lái)自Meta的研究者提出了一個(gè)強(qiáng)大的通用視頻世界模型DINO-world,用于預(yù)測(cè)未來(lái)幀。在實(shí)現(xiàn)方法上,DINO-world在凍結(jié)的視覺(jué)編碼器(如DINOv2)潛在空間中預(yù)訓(xùn)練視頻世界模型,隨后再通過(guò)動(dòng)作數(shù)據(jù)進(jìn)行后訓(xùn)練,以實(shí)現(xiàn)規(guī)劃與控制。
論文地址:https://arxiv.org/pdf/2507.19468v1論文標(biāo)題:BacktotheFeatures:DINOasaFoundationforVideoWorldModels
這一方法具有多個(gè)優(yōu)勢(shì):
將視頻預(yù)訓(xùn)練與基于動(dòng)作-條件的微調(diào)解耦,可以利用大量未標(biāo)注的視頻學(xué)習(xí)通用知識(shí),從而顯著降低對(duì)標(biāo)注數(shù)據(jù)的需求;訓(xùn)練潛在世界模型,避開(kāi)了像素級(jí)建模帶來(lái)的挑戰(zhàn),而像素級(jí)建模對(duì)大多數(shù)下游任務(wù)來(lái)說(shuō)并非必要;凍結(jié)的編碼器DINO能直接提供強(qiáng)大的語(yǔ)義和幾何理解能力,加速了學(xué)習(xí)過(guò)程,并避免了同時(shí)訓(xùn)練編碼器與預(yù)測(cè)器所帶來(lái)的技術(shù)復(fù)雜性。
此外,該研究還引入了一種更高效的世界模型架構(gòu),相比當(dāng)前最先進(jìn)的模型,在訓(xùn)練與推理階段都顯著減少了資源消耗。
在一個(gè)包含約6000萬(wàn)條未經(jīng)清洗的網(wǎng)絡(luò)視頻的大規(guī)模數(shù)據(jù)集上訓(xùn)練預(yù)測(cè)器,使其能夠獲得可以良好遷移到不同領(lǐng)域的通用特征。
在VSPW分割預(yù)測(cè)任務(wù)中,當(dāng)預(yù)測(cè)未來(lái)0.5秒發(fā)生什么時(shí),模型的mIoU提高了6.3%,顯著優(yōu)于第二佳模型。在對(duì)動(dòng)作數(shù)據(jù)進(jìn)行后訓(xùn)練并在規(guī)劃任務(wù)上進(jìn)行評(píng)估時(shí),實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了大規(guī)模無(wú)監(jiān)督預(yù)訓(xùn)練的優(yōu)勢(shì)。
方法介紹
圖1概述了DINO-world主要組件,包括幀編碼器(frameencoder)和未來(lái)預(yù)測(cè)器(futurepredictor)。
幀編碼器
當(dāng)今幾乎所有世界模型都不再直接建模像素,而是基于視頻塊(videopatches)的潛在表示進(jìn)行建模。以V-JEPA為例,它包含一個(gè)編碼器和一個(gè)預(yù)測(cè)器,這兩個(gè)組件是聯(lián)合優(yōu)化的。
與此不同,本文選擇使用專(zhuān)為表征學(xué)習(xí)而設(shè)計(jì)、并通過(guò)自監(jiān)督訓(xùn)練的基礎(chǔ)模型DINOv2對(duì)視頻幀進(jìn)行編碼。
在這種潛在空間中進(jìn)行建模顯著降低了訓(xùn)練預(yù)測(cè)器所需的計(jì)算成本。實(shí)際上,本文成功實(shí)現(xiàn)了參數(shù)量少于10億的世界模型的有效訓(xùn)練,而當(dāng)前最先進(jìn)的生成式模型(如COSMOS)的參數(shù)規(guī)模可高達(dá)120億。
預(yù)測(cè)器架構(gòu)和訓(xùn)練
架構(gòu)。本文將預(yù)測(cè)任務(wù)建模為一個(gè)解碼問(wèn)題,并將預(yù)測(cè)器設(shè)計(jì)為由N個(gè)殘差預(yù)歸一化交叉注意力塊堆疊而成的結(jié)構(gòu)。
在最后一個(gè)模塊之后,通過(guò)一個(gè)線性映射將查詢(xún)tokenq投影為預(yù)測(cè)的patchtoken。
位置編碼。在上述建模形式中,查詢(xún)向量q和上下文特征x并不攜帶關(guān)于其在視頻中位置的信息。為了使模型能夠理解token之間的時(shí)空關(guān)系,本文在多頭注意力機(jī)制中引入了旋轉(zhuǎn)位置編碼(RoPE)。
具體而言,本文將注意力頭的維度D?分成三部分,分別對(duì)每個(gè)token的時(shí)間坐標(biāo)、水平坐標(biāo)和垂直坐標(biāo)進(jìn)行編碼。
對(duì)于空間坐標(biāo)(i,j),采用定義在[?1,+1]2網(wǎng)格上的相對(duì)位置表示,從而確保輸入分辨率的變化不會(huì)影響patch之間的相對(duì)距離。
而對(duì)于時(shí)間坐標(biāo)τ,采用以秒為單位的絕對(duì)時(shí)間戳,使得模型能夠區(qū)分高幀率與低幀率的序列,并具備對(duì)更長(zhǎng)視頻進(jìn)行外推的能力。
訓(xùn)練目標(biāo)。為了便于并行化,本文采用「下一幀預(yù)測(cè)」作為訓(xùn)練目標(biāo),即令t′=t+1,并使用teacherforcing策略。在給定T幀的序列下,關(guān)于第t+1幀的查詢(xún)只能訪問(wèn)到第t幀及之前的patchtoken。對(duì)于參數(shù)為θ的預(yù)測(cè)器,其訓(xùn)練目標(biāo)如下:
相比之下,掩碼重建類(lèi)的損失(如V-JEPA或DINO-Foresight)僅對(duì)掩碼位置的token計(jì)算損失,這些token只占處理總量的一小部分。
可變幀率(VariableFPS)。對(duì)于每段視頻,本文從預(yù)設(shè)范圍[Δτ_min,Δτ_max]中均勻采樣T?1個(gè)時(shí)間間隔,并通過(guò)累加這些間隔以及一個(gè)隨機(jī)起始點(diǎn)來(lái)生成T個(gè)時(shí)間戳。
這樣一來(lái),解碼出最接近的幀及其實(shí)際時(shí)間戳用于訓(xùn)練。該方法確保了模型在訓(xùn)練時(shí)能夠接觸到均勻分布的時(shí)間間隔,從而具備更強(qiáng)的時(shí)間泛化能力。
動(dòng)作條件微調(diào)
本文提出的視頻世界模型可以通過(guò)自監(jiān)督的方式,在大規(guī)模無(wú)標(biāo)注視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練。然而,許多下游應(yīng)用往往涉及某種條件信號(hào),例如智能體的動(dòng)作或語(yǔ)言指令,而這類(lèi)數(shù)據(jù)通常較為有限。
本文關(guān)注的是以觀測(cè)-動(dòng)作對(duì)(v_t,a_t)表示的智能體軌跡。
在預(yù)訓(xùn)練的視頻世界模型基礎(chǔ)上,本文提出了一種簡(jiǎn)單的適配方法,用于將預(yù)測(cè)第t+1幀的過(guò)程與當(dāng)前動(dòng)作a_t相結(jié)合。
實(shí)驗(yàn)結(jié)果
密集預(yù)測(cè)任務(wù)
本文在Cityscapes、VSPW和KITTI數(shù)據(jù)集上進(jìn)行了評(píng)估。
評(píng)估類(lèi)型包括:短期預(yù)測(cè),即預(yù)測(cè)約200毫秒后的幀;以及中期預(yù)測(cè),目標(biāo)時(shí)間點(diǎn)為0.5秒后。
表1結(jié)果表明,DINO-world世界模型優(yōu)于像V-JEPA這樣的聯(lián)合預(yù)測(cè)架構(gòu),也優(yōu)于像COSMOS這樣的生成模型。DINO-Foresight在Cityscapes和KITTI上略微占優(yōu),這歸因于其在駕駛視頻上的領(lǐng)域特定訓(xùn)練。
然而,DINO-world在多個(gè)評(píng)測(cè)基準(zhǔn)上表現(xiàn)穩(wěn)健,驗(yàn)證了這一范式的有效性:在凍結(jié)的自監(jiān)督學(xué)習(xí)編碼器基礎(chǔ)上訓(xùn)練潛在空間的世界模型。事實(shí)上,相較于V-JEPA,本文預(yù)測(cè)的特征質(zhì)量更高;相較于COSMOS,本文對(duì)視頻動(dòng)態(tài)的建模也更為準(zhǔn)確。
表1:密集預(yù)測(cè)。當(dāng)前表現(xiàn)與預(yù)測(cè)表現(xiàn)之間的差距越小,說(shuō)明世界模型越強(qiáng)。
直覺(jué)物理(Intuitivephysics)
本文采用了三個(gè)直覺(jué)物理測(cè)試基準(zhǔn):IntPhys、GRASP和InfLevel。并基于模型的預(yù)測(cè)定義了一個(gè)驚訝分?jǐn)?shù)(surprisescore),用于衡量模型輸出與預(yù)期物理行為的偏差。
從表2的結(jié)果可以看出,所有在大規(guī)模數(shù)據(jù)集上訓(xùn)練的世界模型均表現(xiàn)出一定程度的物理理解能力。DINO-world的表現(xiàn)與使用更大編碼器的V-JEPAViT-H相當(dāng)。DINO-Foresight在IntPhys和GRASP上的相對(duì)劣勢(shì),可歸因于其訓(xùn)練域未包含合成視頻。COSMOS在相對(duì)簡(jiǎn)單的IntPhys任務(wù)中表現(xiàn)幾乎完美,但在另外兩個(gè)任務(wù)上明顯不足。
表2:直覺(jué)物理測(cè)試基準(zhǔn),報(bào)告了所有視頻類(lèi)別的平均相對(duì)準(zhǔn)確率。
實(shí)驗(yàn)表明,潛在空間世界模型在性能上具有顯著優(yōu)勢(shì),同時(shí)也凸顯了大規(guī)模預(yù)訓(xùn)練的重要性。
動(dòng)作條件微調(diào)與規(guī)劃評(píng)估
本文以預(yù)訓(xùn)練的基礎(chǔ)模型為起點(diǎn),在每個(gè)環(huán)境的離線軌跡上對(duì)動(dòng)作條件模型訓(xùn)練25個(gè)epoch,使用幀數(shù)T=4、分辨率為224像素的視頻片段。
作為對(duì)比,本文還訓(xùn)練了兩個(gè)模型:一個(gè)是僅訓(xùn)練動(dòng)作模塊、凍結(jié)其他所有參數(shù)的模型,另一個(gè)則是從頭開(kāi)始訓(xùn)練的模型。
表4報(bào)告了每個(gè)環(huán)境下、512個(gè)測(cè)試回合中的成功率。主要發(fā)現(xiàn)是,與從零訓(xùn)練相比,大規(guī)模預(yù)訓(xùn)練顯著提升了模型性能。作者預(yù)計(jì),在更復(fù)雜、與預(yù)訓(xùn)練數(shù)據(jù)分布更接近的環(huán)境中,這一性能提升將更加明顯。
表4:規(guī)劃評(píng)估。規(guī)劃器在動(dòng)作條件世界模型的潛在空間中展開(kāi)候選軌跡并進(jìn)行優(yōu)化,其成功率如表所示。
更多實(shí)驗(yàn)細(xì)節(jié)、消融實(shí)驗(yàn),請(qǐng)參閱原論文。
超品戰(zhàn)兵蕭兵扮豬吃虎,腳踩尸骨懷摟美人,逆襲鑄就都市王途霸業(yè)
《超品戰(zhàn)兵》:蕭兵原本是雇傭界的王者,卻為了紅顏知己而回歸平凡...
獨(dú)家收藏《超品戰(zhàn)兵》,為神為魔,我的命運(yùn)自主宰!??男生小說(shuō)研究所
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。