本文的作者團(tuán)隊(duì)來自北京大學(xué)和銀河通用機(jī)器人公司。第一作者為北京大學(xué)計(jì)算機(jī)學(xué)院前沿計(jì)算研究中心博士生呂江燃,主要研究方向?yàn)榫呱碇悄埽劢褂谑澜缒P秃蜋C(jī)器人的靈巧操作,論文發(fā)表于ICCV,TPAMI,RSS,CoRL,RAL等機(jī)器人頂會(huì)頂刊。本文的通訊作者為北京大學(xué)計(jì)算機(jī)學(xué)院教授王亦洲和北京大學(xué)助理教授、銀河通用創(chuàng)始人及CTO王鶴。
盡管當(dāng)前的機(jī)器人視覺語言操作模型(VLA)展現(xiàn)出一定的泛化能力,但其操作模式仍以準(zhǔn)靜態(tài)的抓取與放置(pick-and-place)為主。相比之下,人類在操作物體時(shí)常常采用推動(dòng)、翻轉(zhuǎn)等更加靈活的方式。若機(jī)器人僅掌握抓取,將難以應(yīng)對(duì)現(xiàn)實(shí)環(huán)境中的復(fù)雜任務(wù)。例如,抓起一張薄薄的銀行卡,通常需要先將其推到桌邊;而抓取一個(gè)寬大的盒子,則往往需要先將其翻轉(zhuǎn)立起(如圖1所示):
這些技能都屬于一個(gè)重要的領(lǐng)域:非抓握操作(Non-prehensileManipulation)。非抓握操作泛指不通過夾取、抓握等方式進(jìn)行物體操控的行為,廣泛應(yīng)用于處理薄片、大型物體、復(fù)雜幾何或密集場景下的操作任務(wù)。然而現(xiàn)實(shí)環(huán)境的物理屬性比較復(fù)雜,操作對(duì)象的幾何形狀,質(zhì)量,桌面的摩擦力等都會(huì)成為制約非抓握操作的因素。為了實(shí)現(xiàn)對(duì)上述環(huán)境因素全面泛化的非抓握操作技能,北京大學(xué)與銀河通用提出了自適應(yīng)性【世界-動(dòng)作】模型Dynamics-adaptiveWorldActionModel(DyWA)(/di?.v?/),協(xié)同學(xué)習(xí)系統(tǒng)的動(dòng)力學(xué)和機(jī)器人的精細(xì)操作策略。該項(xiàng)研究已被ICCV2025接收。
論文鏈接:https://arxiv.org/abs/2503.16806論文標(biāo)題:DyWA:Dynamics-adaptiveWorldActionModelforGeneralizableNon-prehensileManipulation項(xiàng)目主頁:https://pku-epic.github.io/DyWA/代碼倉庫:https://github.com/jiangranlv/DyWA
非抓握操作的兩大難點(diǎn)
復(fù)雜的接觸建模
與抓取相比,非抓握操作涉及連續(xù)接觸、多變的摩擦力等復(fù)雜物理交互。機(jī)器人推一個(gè)物體時(shí),摩擦力的微小變化可能導(dǎo)致運(yùn)動(dòng)軌跡完全不同:換一塊桌布,物體就變得“推不動(dòng)”或“滑太快”;同一個(gè)杯子,空的和裝滿水時(shí),移動(dòng)行為完全不同;對(duì)于質(zhì)量分布不均的物體,會(huì)出現(xiàn)“旋轉(zhuǎn)-滑動(dòng)”的非線性行為。
傳統(tǒng)的物理建?;騼?yōu)化方法(如TrajectoryOptimization)雖然可以部分求解這些問題,但依賴精確的物體質(zhì)量、摩擦系數(shù)、幾何模型,這些屬性難以在真實(shí)世界獲得。目前的學(xué)習(xí)方法如CORN、HACMan等,主要側(cè)重于僅根據(jù)幾何信息推理動(dòng)作,例如“向左推物體會(huì)往左移動(dòng)”,但它們?nèi)狈?duì)環(huán)境中潛在動(dòng)力學(xué)屬性(如摩擦、質(zhì)量、彈性等)的建模與適應(yīng)能力,導(dǎo)致在面對(duì)真實(shí)物理擾動(dòng)時(shí)表現(xiàn)急劇下降。
現(xiàn)實(shí)感知受限:信息缺失+噪聲干擾
要實(shí)現(xiàn)高質(zhì)量的非抓取操作,機(jī)器人必須知道物體在哪里、姿態(tài)如何、表面幾何如何接觸。這對(duì)感知系統(tǒng)提出了極高的要求。
但在現(xiàn)實(shí)中,常見傳感器面臨單視角點(diǎn)云嚴(yán)重遮擋,多視角設(shè)置昂貴且繁瑣,不適合部署在真實(shí)環(huán)境或移動(dòng)平臺(tái)上;而已有方法常常假設(shè)多視角輸入、額外的位姿追蹤模塊,但在現(xiàn)實(shí)中難以部署。
DyWA的核心方法
1.世界-動(dòng)作模型:聯(lián)合建模動(dòng)作與未來狀態(tài),讓策略具備“想象力”
DyWA采用標(biāo)準(zhǔn)的teacher-student框架,將利用全知信息訓(xùn)練的強(qiáng)化學(xué)習(xí)教師策略在線蒸餾給一個(gè)僅接收點(diǎn)云輸入的學(xué)生模型。與傳統(tǒng)方法僅學(xué)習(xí)動(dòng)作輸出不同,DyWA同時(shí)預(yù)測動(dòng)作將帶來的未來狀態(tài),相當(dāng)于讓機(jī)器人“想象”動(dòng)作執(zhí)行后的效果。在訓(xùn)練過程中,模型因此能夠隱式建模物理世界的動(dòng)力學(xué)過程,從而顯著提升學(xué)習(xí)效率與泛化能力。該模型被稱為“WorldActionModel”。實(shí)驗(yàn)結(jié)果表明,這種聯(lián)合建模方式可帶來更優(yōu)的策略優(yōu)化效果和更強(qiáng)的魯棒性。
2.動(dòng)力學(xué)自適應(yīng)機(jī)制:從歷史中“讀懂”摩擦、質(zhì)量等隱含因素
在真實(shí)環(huán)境中,機(jī)器人往往無法直接獲知桌面的摩擦系數(shù)或物體的質(zhì)量分布。DyWA引入了一種類似RMA(RapidMotorAdaptation)思想的動(dòng)態(tài)適應(yīng)模塊,通過分析歷史觀測和動(dòng)作序列,推理出環(huán)境中隱含的物理屬性,例如表面是否光滑、物體是否沉重或質(zhì)量分布是否均勻。同時(shí),歷史信息還包含更完整的幾何線索,彌補(bǔ)了單幀觀測中的缺失。
該動(dòng)力學(xué)表示通過FiLM機(jī)制調(diào)控世界模型的中間特征,使策略在執(zhí)行過程中能夠動(dòng)態(tài)調(diào)整“用力”或“穩(wěn)住”的程度,實(shí)現(xiàn)自適應(yīng)的物理交互。
3.單視角輸入+大規(guī)模域隨機(jī)化仿真訓(xùn)練+零樣本遷移
考慮到現(xiàn)實(shí)部署的可行性,DyWA設(shè)計(jì)上僅依賴單個(gè)深度相機(jī)獲取的點(diǎn)云作為輸入,不依賴多攝像頭系統(tǒng),也無需外部位姿追蹤模塊。經(jīng)過對(duì)物理參數(shù)(摩擦系數(shù),物體質(zhì)心分布等)規(guī)模域隨機(jī)化訓(xùn)練后,模型能夠?qū)崿F(xiàn)從仿真到真實(shí)機(jī)器人的零樣本遷移,達(dá)成端到端的泛化操控能力。
DyWA的全面泛化能力
在仿真中,本文搭建了一個(gè)全面的benchmark用以評(píng)估目前l(fā)earning-based方法的表現(xiàn)??梢钥吹剑谝阎矬w狀態(tài)(三視角點(diǎn)云),未知物體狀態(tài)(三視角點(diǎn)云)和未知物體狀態(tài)(單視角點(diǎn)云)三種設(shè)置下,DyWA都顯著優(yōu)于基線方法,實(shí)現(xiàn)了80+成功率的精準(zhǔn)操作。
仿真實(shí)驗(yàn)結(jié)果
真機(jī)實(shí)驗(yàn)結(jié)果
DyWA可以零樣本遷移到真實(shí)世界并展現(xiàn)全面泛化性:
1.不僅對(duì)物體幾何形狀泛化,更對(duì)物體質(zhì)量分布泛化:DyWA能將桌面上任意形狀的未在訓(xùn)練中見到的物體推到目標(biāo)6D位姿,成功率接近70。無論是底重頭輕的咖啡壺,或是搖晃著的半滿水瓶,DyWA都能實(shí)現(xiàn)穩(wěn)健操作
6倍速播放
原速播放
2.適應(yīng)各種摩擦面:無論是高摩擦的瑜伽墊,還是低摩擦易打滑的塑料板,DyWA都能自適應(yīng)控制力度,維持操作的魯棒性。
6倍速播放
3.強(qiáng)大的閉環(huán)自適應(yīng)能力:面對(duì)光滑的瓶子,DyWA能在失敗幾次后適應(yīng)并成功翻轉(zhuǎn)瓶子
6倍速播放
另外,DyWA可與抓取策略及視覺語言大模型(VLM)協(xié)同工作。如圖1所示的例子,在用戶通過自然語言指定目標(biāo)位置后,DyWA首先將物體推至便于抓取的姿態(tài),再由抓取策略完成任務(wù),從而顯著提升復(fù)雜場景下的整體成功率。
五本非傳統(tǒng)的仙俠文推薦:使人耳目一新
推薦3本無敵流爽文小說,量大管飽,拯救你的書荒
他崛起于離離之草,凌駕于仙秦世界,成為掌控大秦命運(yùn)的神話傳說