岑俊,阿里巴巴達(dá)摩院具身智能大模型算法研究員,博士畢業(yè)于香港科技大學(xué)。研究方向主要是:具身智能VLA模型,世界模型。
阿里巴巴達(dá)摩院提出了WorldVLA,首次將世界模型(WorldModel)和動(dòng)作模型(ActionModel/VLAModel)融合到了一個(gè)模型中。WorldVLA是一個(gè)統(tǒng)一了文本、圖片、動(dòng)作理解和生成的全自回歸模型。
論文標(biāo)題:WorldVLA:TowardsAutoregressiveActionWorldModel
代碼地址:https://github.com/alibaba-damo-academy/WorldVLA
研究簡(jiǎn)介
近年來(lái),視覺(jué)-語(yǔ)言-動(dòng)作(Vision-Language-Action,VLA)模型的發(fā)展成為機(jī)器人動(dòng)作建模研究的重要方向。這類模型通常是在大規(guī)模預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型(MultimodalLargeLanguageModels,MLLMs)基礎(chǔ)上,添加一個(gè)動(dòng)作輸出頭或?qū)iT的動(dòng)作模塊,以實(shí)現(xiàn)對(duì)動(dòng)作的生成。MLLMs在感知和決策方面表現(xiàn)出色,使得VLA模型在多種機(jī)器人任務(wù)中展現(xiàn)出良好的泛化能力。然而,這些模型存在一個(gè)顯著的局限性:它們往往缺乏對(duì)動(dòng)作本身的深入理解。在現(xiàn)有方法中,動(dòng)作只是作為輸出結(jié)果處理,并未被當(dāng)作輸入進(jìn)行分析和建模。相比之下,世界模型(WorldModels)能夠基于當(dāng)前觀測(cè)與動(dòng)作預(yù)測(cè)未來(lái)的視覺(jué)狀態(tài),從而同時(shí)理解視覺(jué)信息和行為動(dòng)態(tài)。盡管具備這一優(yōu)勢(shì),世界模型卻無(wú)法直接生成動(dòng)作輸出,這導(dǎo)致其在需要顯式動(dòng)作規(guī)劃的應(yīng)用場(chǎng)景中存在功能上的空白。
為了解決VLA模型與世界模型各自的局限,我們提出WorldVLA——一種基于自回歸機(jī)制的統(tǒng)一動(dòng)作與圖像理解與生成模型。如下圖所示,WorldVLA使用三個(gè)獨(dú)立的編碼器分別處理圖像、文本和動(dòng)作數(shù)據(jù)。不同模態(tài)的token被設(shè)計(jì)為共享相同的詞表,從而使得在同一個(gè)語(yǔ)言模型架構(gòu)下可以統(tǒng)一完成跨模態(tài)的理解與生成任務(wù)。
其中,世界模型部分通過(guò)輸入動(dòng)作來(lái)生成對(duì)應(yīng)的視覺(jué)表示,從而學(xué)習(xí)環(huán)境中的物理動(dòng)態(tài)規(guī)律。這種對(duì)動(dòng)作的解讀與物理世界的建模對(duì)于動(dòng)作模型的決策至關(guān)重要。與此同時(shí),嵌入在WorldVLA中的動(dòng)作模型也反過(guò)來(lái)增強(qiáng)了對(duì)視覺(jué)信息的理解,進(jìn)一步提升世界模型在圖像生成方面的準(zhǔn)確性。這種雙向增強(qiáng)機(jī)制使整個(gè)系統(tǒng)在理解和生成圖像與動(dòng)作方面更加魯棒和全面。
此外,已有研究表明,動(dòng)作分塊(actionchunking)和并行解碼技術(shù)對(duì)動(dòng)作模型的性能有顯著影響。然而,我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn),在自回歸模型中連續(xù)生成多個(gè)動(dòng)作時(shí)會(huì)導(dǎo)致性能下降。主要原因在于,預(yù)訓(xùn)練的多模態(tài)語(yǔ)言模型主要接觸的是圖像和文本,而對(duì)動(dòng)作的學(xué)習(xí)較少,因此在動(dòng)作生成任務(wù)中泛化能力有限。而在自回歸模型中,后續(xù)動(dòng)作的生成依賴于前面的預(yù)測(cè)結(jié)果,一旦出現(xiàn)錯(cuò)誤,便會(huì)隨時(shí)間不斷傳播放大。為了解決這一問(wèn)題,我們提出了一種動(dòng)作注意力掩碼策略(actionattentionmaskingstrategy),在生成當(dāng)前動(dòng)作時(shí)選擇性地屏蔽掉之前的動(dòng)作信息。這種方法有效緩解了錯(cuò)誤累積的問(wèn)題,在動(dòng)作分塊生成任務(wù)中帶來(lái)了顯著的性能提升。
在LIBERO基準(zhǔn)測(cè)試中,我們的WorldVLA相比使用相同主干網(wǎng)絡(luò)的傳統(tǒng)動(dòng)作模型,在抓取成功率上提升了4%。相較于傳統(tǒng)的世界模型,WorldVLA在視頻生成質(zhì)量上表現(xiàn)更優(yōu),F(xiàn)VD(FréchetVideoDistance)指標(biāo)降低了10%。這些結(jié)果充分說(shuō)明,將世界模型與動(dòng)作模型融合所帶來(lái)的協(xié)同增益,驗(yàn)證了圖像與動(dòng)作統(tǒng)一理解與生成框架的優(yōu)勢(shì)。在動(dòng)作分塊生成任務(wù)中,傳統(tǒng)自回歸方式會(huì)導(dǎo)致抓取成功率下降10%到50%。但引入我們的注意力掩碼策略后,性能下降得到了明顯緩解,抓取成功率提升了4%到23%。
研究方法
VLA模型可以根據(jù)圖像理解生成動(dòng)作;世界模型可以根據(jù)當(dāng)前圖像和動(dòng)作生成下一幀圖像;WorldVLA將將兩者融合,實(shí)現(xiàn)圖像與動(dòng)作的雙向理解和生成,如下圖所示。
WorldVLA使用獨(dú)立的編碼器分別處理圖像、文本和動(dòng)作,并讓這些模態(tài)共享同一個(gè)詞匯表,從而在單一的大語(yǔ)言模型架構(gòu)下實(shí)現(xiàn)跨模態(tài)的統(tǒng)一建模。這種設(shè)計(jì)不僅提升了動(dòng)作生成的準(zhǔn)確性,也增強(qiáng)了圖像預(yù)測(cè)的質(zhì)量。WorldVLA使用ActionModel數(shù)據(jù)和WorldModel數(shù)據(jù)來(lái)訓(xùn)練模型。ActionModel是根據(jù)圖片輸入和文本指令輸入來(lái)輸出動(dòng)作,數(shù)據(jù)格式如下:
WorldModel根據(jù)當(dāng)前幀圖片和動(dòng)作來(lái)生成下一幀圖片,數(shù)據(jù)格式如下:
在一次性輸出多個(gè)action時(shí),使用默認(rèn)的自回歸范式會(huì)使得效果變差。原因是動(dòng)作模態(tài)并不在原本多模態(tài)大模型的預(yù)訓(xùn)練中,因此泛化能力較差,這樣生成多個(gè)動(dòng)作時(shí)就會(huì)有誤差累積的問(wèn)題。為了解決這個(gè)問(wèn)題,WorldVLA提出了一種attentionmask策略,使得生成動(dòng)作時(shí)只能看見前面的圖片而不能看見前面的動(dòng)作,從而解決動(dòng)作累計(jì)誤差問(wèn)題,如下圖所示。
實(shí)驗(yàn)結(jié)果
在LIBERObenchmark上的實(shí)驗(yàn)結(jié)果如下圖所示,在沒(méi)有預(yù)訓(xùn)練的情況下超越了需要預(yù)訓(xùn)練的全自回歸模型OpenVLA。
下圖為actionmodel的消融實(shí)驗(yàn)結(jié)果。對(duì)比row2和row1以及row5和row4可以看出,worldmodel的加入可以給actionmodel帶來(lái)更好的結(jié)果。Row3可以看出,使用默認(rèn)的attentionmask會(huì)導(dǎo)致某些任務(wù)的成功率下降,但是從row4看出,我們提出的attentionmask可以全面大幅提升任務(wù)的成功率。
ActionModel可視化(Text+Image->Action)
下圖可以看出WorldVLA可以根據(jù)指令完成對(duì)應(yīng)的動(dòng)作。
WorldModel可視化(Action+Image->Image)
下圖可以看出WorldVLA可以根據(jù)動(dòng)作和圖片來(lái)生成下一幀圖片。
沒(méi)想到長(zhǎng)輩看小說(shuō)比我還野|“我,82歲,看網(wǎng)文看到忘乎所以”
甚至有些隱形富二代在結(jié)婚之后,依然還在一段時(shí)間內(nèi)隱藏了自己的身份,然后被丈母娘訓(xùn)斥、在家被要求洗碗做飯,直到妻子和丈母娘發(fā)現(xiàn)真相,恨不得“跪地求饒”。類似的故事中,還有男主角包治百病、可以搞定女主角所有疑難雜癥;又或者男主角看似手無(wú)縛雞之力,但其實(shí)武功蓋世……我覺(jué)得這可能是女兒曾向我科普的“男版瑪麗蘇”文學(xué),可 所以乞丐一聽說(shuō)顧晨要和他換衣服,他暗罵顧晨一聲“傻子”,便欣然地答應(yīng)了|——。顧晨換好衣服之后,立馬易了容,作為神醫(yī)唯一傳人,這是基操,也是他一直以來(lái)的習(xí)慣。令顧晨萬(wàn)萬(wàn)沒(méi)想到的是,乞丐也有乞丐的規(guī)矩,有些地方是不能亂進(jìn)的_-。就在他前腳剛剛踏入一家鐵匠鋪門口的時(shí)候,立馬有七八個(gè)乞丐將他圍了起來(lái)——。不等會(huì)說(shuō)。《山村小神醫(yī)》最新章節(jié)更新內(nèi)容,為啥推遲至今