本文的作者團隊來自北京大學和銀河通用機器人公司。第一作者為北京大學計算機學院前沿計算研究中心博士生呂江燃,主要研究方向為具身智能,聚焦于世界模型和機器人的靈巧操作,論文發(fā)表于ICCV,TPAMI,RSS,CoRL,RAL等機器人頂會頂刊。本文的通訊作者為北京大學計算機學院教授王亦洲和北京大學助理教授、銀河通用創(chuàng)始人及CTO王鶴。
盡管當前的機器人視覺語言操作模型(VLA)展現(xiàn)出一定的泛化能力,但其操作模式仍以準靜態(tài)的抓取與放置(pick-and-place)為主。相比之下,人類在操作物體時常常采用推動、翻轉(zhuǎn)等更加靈活的方式。若機器人僅掌握抓取,將難以應對現(xiàn)實環(huán)境中的復雜任務。例如,抓起一張薄薄的銀行卡,通常需要先將其推到桌邊;而抓取一個寬大的盒子,則往往需要先將其翻轉(zhuǎn)立起(如圖1所示):
這些技能都屬于一個重要的領(lǐng)域:非抓握操作(Non-prehensileManipulation)。非抓握操作泛指不通過夾取、抓握等方式進行物體操控的行為,廣泛應用于處理薄片、大型物體、復雜幾何或密集場景下的操作任務。然而現(xiàn)實環(huán)境的物理屬性比較復雜,操作對象的幾何形狀,質(zhì)量,桌面的摩擦力等都會成為制約非抓握操作的因素。為了實現(xiàn)對上述環(huán)境因素全面泛化的非抓握操作技能,北京大學與銀河通用提出了自適應性【世界-動作】模型Dynamics-adaptiveWorldActionModel(DyWA)(/di?.v?/),協(xié)同學習系統(tǒng)的動力學和機器人的精細操作策略。該項研究已被ICCV2025接收。
論文鏈接:https://arxiv.org/abs/2503.16806論文標題:DyWA:Dynamics-adaptiveWorldActionModelforGeneralizableNon-prehensileManipulation項目主頁:https://pku-epic.github.io/DyWA/代碼倉庫:https://github.com/jiangranlv/DyWA
非抓握操作的兩大難點
復雜的接觸建模
與抓取相比,非抓握操作涉及連續(xù)接觸、多變的摩擦力等復雜物理交互。機器人推一個物體時,摩擦力的微小變化可能導致運動軌跡完全不同:換一塊桌布,物體就變得“推不動”或“滑太快”;同一個杯子,空的和裝滿水時,移動行為完全不同;對于質(zhì)量分布不均的物體,會出現(xiàn)“旋轉(zhuǎn)-滑動”的非線性行為。
傳統(tǒng)的物理建?;騼?yōu)化方法(如TrajectoryOptimization)雖然可以部分求解這些問題,但依賴精確的物體質(zhì)量、摩擦系數(shù)、幾何模型,這些屬性難以在真實世界獲得。目前的學習方法如CORN、HACMan等,主要側(cè)重于僅根據(jù)幾何信息推理動作,例如“向左推物體會往左移動”,但它們?nèi)狈Νh(huán)境中潛在動力學屬性(如摩擦、質(zhì)量、彈性等)的建模與適應能力,導致在面對真實物理擾動時表現(xiàn)急劇下降。
現(xiàn)實感知受限:信息缺失+噪聲干擾
要實現(xiàn)高質(zhì)量的非抓取操作,機器人必須知道物體在哪里、姿態(tài)如何、表面幾何如何接觸。這對感知系統(tǒng)提出了極高的要求。
但在現(xiàn)實中,常見傳感器面臨單視角點云嚴重遮擋,多視角設(shè)置昂貴且繁瑣,不適合部署在真實環(huán)境或移動平臺上;而已有方法常常假設(shè)多視角輸入、額外的位姿追蹤模塊,但在現(xiàn)實中難以部署。
DyWA的核心方法
1.世界-動作模型:聯(lián)合建模動作與未來狀態(tài),讓策略具備“想象力”
DyWA采用標準的teacher-student框架,將利用全知信息訓練的強化學習教師策略在線蒸餾給一個僅接收點云輸入的學生模型。與傳統(tǒng)方法僅學習動作輸出不同,DyWA同時預測動作將帶來的未來狀態(tài),相當于讓機器人“想象”動作執(zhí)行后的效果。在訓練過程中,模型因此能夠隱式建模物理世界的動力學過程,從而顯著提升學習效率與泛化能力。該模型被稱為“WorldActionModel”。實驗結(jié)果表明,這種聯(lián)合建模方式可帶來更優(yōu)的策略優(yōu)化效果和更強的魯棒性。
2.動力學自適應機制:從歷史中“讀懂”摩擦、質(zhì)量等隱含因素
在真實環(huán)境中,機器人往往無法直接獲知桌面的摩擦系數(shù)或物體的質(zhì)量分布。DyWA引入了一種類似RMA(RapidMotorAdaptation)思想的動態(tài)適應模塊,通過分析歷史觀測和動作序列,推理出環(huán)境中隱含的物理屬性,例如表面是否光滑、物體是否沉重或質(zhì)量分布是否均勻。同時,歷史信息還包含更完整的幾何線索,彌補了單幀觀測中的缺失。
該動力學表示通過FiLM機制調(diào)控世界模型的中間特征,使策略在執(zhí)行過程中能夠動態(tài)調(diào)整“用力”或“穩(wěn)住”的程度,實現(xiàn)自適應的物理交互。
3.單視角輸入+大規(guī)模域隨機化仿真訓練+零樣本遷移
考慮到現(xiàn)實部署的可行性,DyWA設(shè)計上僅依賴單個深度相機獲取的點云作為輸入,不依賴多攝像頭系統(tǒng),也無需外部位姿追蹤模塊。經(jīng)過對物理參數(shù)(摩擦系數(shù),物體質(zhì)心分布等)規(guī)模域隨機化訓練后,模型能夠?qū)崿F(xiàn)從仿真到真實機器人的零樣本遷移,達成端到端的泛化操控能力。
DyWA的全面泛化能力
在仿真中,本文搭建了一個全面的benchmark用以評估目前l(fā)earning-based方法的表現(xiàn)??梢钥吹?,在已知物體狀態(tài)(三視角點云),未知物體狀態(tài)(三視角點云)和未知物體狀態(tài)(單視角點云)三種設(shè)置下,DyWA都顯著優(yōu)于基線方法,實現(xiàn)了80+成功率的精準操作。
仿真實驗結(jié)果
真機實驗結(jié)果
DyWA可以零樣本遷移到真實世界并展現(xiàn)全面泛化性:
1.不僅對物體幾何形狀泛化,更對物體質(zhì)量分布泛化:DyWA能將桌面上任意形狀的未在訓練中見到的物體推到目標6D位姿,成功率接近70。無論是底重頭輕的咖啡壺,或是搖晃著的半滿水瓶,DyWA都能實現(xiàn)穩(wěn)健操作
6倍速播放
原速播放
2.適應各種摩擦面:無論是高摩擦的瑜伽墊,還是低摩擦易打滑的塑料板,DyWA都能自適應控制力度,維持操作的魯棒性。
6倍速播放
3.強大的閉環(huán)自適應能力:面對光滑的瓶子,DyWA能在失敗幾次后適應并成功翻轉(zhuǎn)瓶子
6倍速播放
另外,DyWA可與抓取策略及視覺語言大模型(VLM)協(xié)同工作。如圖1所示的例子,在用戶通過自然語言指定目標位置后,DyWA首先將物體推至便于抓取的姿態(tài),再由抓取策略完成任務,從而顯著提升復雜場景下的整體成功率。
有趣的書我們都愛讀,有用的書更是不得不讀
小說:魂穿趙構(gòu)改寫大宋命運,奸臣惶恐,岳飛誓復漢土!
武俠小說:《神雕俠侶》(六)