論文標(biāo)題:Chain-of-Action:TrajectoryAutoregressiveModelingforRoboticManipulation
主頁鏈接:https://chain-of-action.github.io/
代碼鏈接:https://github.com/ByteDance-Seed/Chain-of-Action
模仿學(xué)習(xí)的困境
具身智能(EmbodiedAI)作為人工智能領(lǐng)域的前沿方向,旨在賦予機(jī)器人或智能體在物理世界中感知、決策和行動(dòng)的能力。近年來,盡管視覺-語言-動(dòng)作模型(VisionLanguageAction,VLA)已經(jīng)取得了諸多進(jìn)展,但具身智能領(lǐng)域尚未迎來「GPT時(shí)刻」。越來越多的研究人員開始相信,僅僅增加模型規(guī)模和數(shù)據(jù)量似乎不足以創(chuàng)造出通用操作模型,如果我們想要充分釋放現(xiàn)有數(shù)據(jù)的潛力,就需要找到更有效的機(jī)器人操作建模方法。
來自字節(jié)跳動(dòng)Seed&阿德萊德大學(xué)的研究者追根溯源,對(duì)模仿學(xué)習(xí)的基本范式進(jìn)行了反思,發(fā)現(xiàn)現(xiàn)有建模思路或許存在缺陷:經(jīng)典方法如ACT、DiffusionPolicy(DP)都遵循「前向預(yù)測(cè)」(forward-prediction)范式。而然這種方式不可避免地存在較大的復(fù)合誤差(compoundingerror)。
在該范式下,策略通常被優(yōu)化為基于當(dāng)前觀察預(yù)測(cè)短期的下一步動(dòng)作,而非確保最終能夠成功完成整個(gè)任務(wù)。雖然引入了動(dòng)作分塊(actionchunking)等策略來緩解復(fù)合誤差,但無法解決其固有的「短視性」問題。
基于該局限,研究者提出了「動(dòng)作鏈」(Chain-of-Action,CoA)——一種基于軌跡自回歸的機(jī)器人操作策略。與經(jīng)典范式區(qū)分,CoA并不直接由觀察映射到執(zhí)行動(dòng)作,而是由從最終位置反向自回歸的生成軌跡點(diǎn),推理出可執(zhí)行的動(dòng)作。研究團(tuán)隊(duì)初步發(fā)現(xiàn),僅僅通過修改建模方式,CoA在與ACT保持相同的基本結(jié)構(gòu)下,空間泛化能力顯著提升。這種建模方式為具身操作策略的建模提供了新的思路。
動(dòng)作鏈:基于軌跡自回歸建模的
機(jī)器人操作策略
核心思想:受到思維鏈(Chain-of-Thought)的啟發(fā),CoA并不直接由觀察映射到執(zhí)行動(dòng)作,而是在動(dòng)作層面進(jìn)行迭代式的推理。具體來說,CoA逆向的生成針對(duì)目標(biāo)任務(wù)的完整軌跡,這個(gè)生成過程統(tǒng)一在一個(gè)自回歸網(wǎng)絡(luò)下。自回歸過程從「關(guān)鍵幀動(dòng)作」(keyframeaction)開始,迭代地生成一連串完整的動(dòng)作軌跡,直至當(dāng)前的機(jī)器人夾爪的位置。
全局到局部一致性:這種「從后往前」的生成方式,為整個(gè)動(dòng)作序列提供了的「全局-局部」(global-to-local)結(jié)構(gòu)性約束。因?yàn)槊總€(gè)后續(xù)生成的動(dòng)作都以代表最終目標(biāo)的「關(guān)鍵幀」為條件,所以最后執(zhí)行的動(dòng)作將會(huì)被最終目標(biāo)所「錨定」,空間泛化能力顯著得到增強(qiáng)。
統(tǒng)一的自回歸框架:CoA將關(guān)鍵幀的識(shí)別和軌跡的生成統(tǒng)一在單一的自回歸模型中,實(shí)現(xiàn)了端到端的訓(xùn)練和高效的閉環(huán)執(zhí)行,并保持了可擴(kuò)展(scalable)的潛力。
關(guān)鍵設(shè)計(jì)
為了實(shí)現(xiàn)軌跡自回歸的想法,CoA引入了四個(gè)關(guān)鍵設(shè)計(jì):
連續(xù)動(dòng)作表征(ContinuousActionRepresentation):離散化的動(dòng)作表征會(huì)引入量化誤差,為保證軌跡的精細(xì)度,CoA采用了連續(xù)的動(dòng)作表征并引入了「潛在一致性損失」(Latentconsistencyloss)。
動(dòng)態(tài)停止機(jī)制(DynamicStopping):在連續(xù)動(dòng)作空間中,沒有傳統(tǒng)的中止符(EOStoken)來指示序列的結(jié)束。因此,CoA設(shè)計(jì)了一種基于距離的動(dòng)態(tài)停止機(jī)制,實(shí)現(xiàn)可變長(zhǎng)度(variablelength)的軌跡預(yù)測(cè)。
反向時(shí)間集成(ReverseTemporalEnsemble):傳統(tǒng)的時(shí)序集成策略基于前向時(shí)間假設(shè),不適用于CoA的反向生成模式。CoA通過反向時(shí)序集成,進(jìn)一步提高預(yù)測(cè)的穩(wěn)定性。
多詞元預(yù)測(cè)(Multi-tokenPrediction,MTP):動(dòng)作局部依賴關(guān)系的建??勺鳛椤溉?局部」一致性的補(bǔ)充。此設(shè)計(jì)僅在訓(xùn)練階段作為正則化手段使用,在推理時(shí)移除,保證了效率。
實(shí)驗(yàn)驗(yàn)證
模擬環(huán)境測(cè)試
大幅超越基線:在涵蓋60個(gè)任務(wù)的RLBench大規(guī)模擬基準(zhǔn)測(cè)試中,CoA的平均成功率達(dá)到了55.2%,顯著優(yōu)于ACT(38.9%)和DP(32.6%)。相較于ACT,CoA在81.7%的任務(wù)中取得了更高的成功率,平均提升了16.3%。相較于DP,CoA在80.0%的任務(wù)上表現(xiàn)更優(yōu),平均提升為23.2%。
相關(guān)性分析:所有方法的成功率都隨著物體空間分布方差的增大而下降,但CoA的下降趨勢(shì)更為平緩,且其性能優(yōu)勢(shì)在高方差(更困難)的任務(wù)中更為明顯。
空間泛化能力分析:研究者對(duì)泛化性進(jìn)行了更細(xì)致的觀察。以按按鈕任務(wù)為案例,分別測(cè)試了「內(nèi)插」(in-distribution)和「外推」(out-of-distribution)情況下各個(gè)模型的表現(xiàn),結(jié)果顯示,CoA在外推場(chǎng)景下成功率約為內(nèi)插情況下的一半,但對(duì)于ACT和DP,外推任務(wù)幾乎不能完成,這一定程度揭示了兩種建模范式在空間泛化表現(xiàn)上的根本差異。
真實(shí)世界實(shí)驗(yàn)
研究者在一臺(tái)Fetch機(jī)器人上,圍繞8項(xiàng)廚房任務(wù)進(jìn)行了部署和測(cè)試。觀察來自單個(gè)RGB攝像頭,策略以10Hz的頻率運(yùn)行,每個(gè)任務(wù)測(cè)試10次。實(shí)驗(yàn)結(jié)果顯示CoA取得了61.3%的平均成功率,ACT成功率為46.3%,DP的成功率36.3%。這驗(yàn)證了CoA建模范式在真實(shí)世界中的可用性。
結(jié)論與展望
Chain-of-Action提出了一種新穎的模仿學(xué)習(xí)范式,其核心是軌跡自回歸建模。通過從一個(gè)代表任務(wù)目標(biāo)的「關(guān)鍵幀」開始,逆向生成動(dòng)作序列,該方法為軌跡施加了一個(gè)強(qiáng)大的「全局-局部」結(jié)構(gòu)約束,從而有效解決累計(jì)誤差問題,提升機(jī)器人操作泛化性。全面的實(shí)驗(yàn)結(jié)果證明,在沒有更多數(shù)據(jù)和增大模型規(guī)模的情況下,其在空間泛化能力相比傳統(tǒng)范式取得顯著提升。這說明一個(gè)合理的建模范式可以有效的釋放現(xiàn)有數(shù)據(jù)的潛力。CoA有望為未來一代的VLA模型提供新的建模思路。
20本百看不厭的穿越小說,值得點(diǎn)贊!
鬼使神差偷了個(gè)兵符,夏初七無可奈何惹上了冷面晉王|——。血海深仇與她何干?她只有兩個(gè)愿望。賺銀子————。嫁美男——-。陰差陽錯(cuò)釣上個(gè)丑女,晉王爺順理成章收了個(gè)貪財(cái)流氓——。廟堂爭(zhēng)霸與他何干?他只有兩個(gè)愿望-。玩江山。娶阿七_(dá)-。當(dāng)簡(jiǎn)單的愿望碰上烽火連天的時(shí)代。兩個(gè)人,四個(gè)理想,誰做奴隸誰做王?亂江山,奪儲(chǔ)位。雪深仇,碎奇謀。上窮碧落,兩處茫茫。退一步, 「云舟,王爺還是那個(gè)王爺對(duì)不對(duì),他沒有變對(duì)不對(duì),我不應(yīng)該懷疑的,那姑娘只是他的師妹而已,我不能多想」南夕自懷了孕,開始變得敏感,她靠在云舟的肩膀,聲音低低的帶著明顯的失落-?!缚墒窃浦郏疫€是不開心,王爺剛才連個(gè)正眼都沒給我,他的臉色真難看,他應(yīng)該是擔(dān)心里面的姑娘吧,是不是我打擾他了,云等會(huì)說。將軍娶妻竟叫小妾踏正門,次日太后發(fā)懿旨:休夫,終身為奴