吳梅玫
人形機(jī)器人作為用于復(fù)雜運(yùn)動(dòng)控制、人機(jī)交互和通用物理智能的多功能平臺(tái),正受到前所未有的關(guān)注。然而,由于其復(fù)雜的動(dòng)力學(xué)、欠驅(qū)動(dòng)和多樣化的任務(wù)需求,實(shí)現(xiàn)高效的人形機(jī)器人全身控制(Whole-BodyControl,WBC)仍然是一項(xiàng)根本性的挑戰(zhàn)。
雖然基于強(qiáng)化學(xué)習(xí)等方法的控制器在特定任務(wù)中展現(xiàn)出優(yōu)越的性能,但它們往往只具有有限的泛化性能,在面向新場(chǎng)景時(shí)需要進(jìn)行復(fù)雜且成本高昂的再訓(xùn)練。為了突破這些限制,行為基礎(chǔ)模型(BehaviorFoundationModel,BFM)應(yīng)運(yùn)而生,它利用大規(guī)模預(yù)訓(xùn)練來(lái)學(xué)習(xí)可重用的原始技能和廣泛的行為先驗(yàn),從而能夠零樣本或快速適應(yīng)各種下游任務(wù)。
來(lái)自香港理工大學(xué)、逐際動(dòng)力、東方理工大學(xué)、香港大學(xué)和EPFL等知名機(jī)構(gòu)的研究者合作完成題為《ASurveyofBehaviorFoundationModel:Next-GenerationWhole-BodyControlSystemofHumanoidRobots》的長(zhǎng)文綜述,首次聚焦行為基礎(chǔ)模型在人形機(jī)器人全身控制中的應(yīng)用。
該綜述系統(tǒng)性地梳理了當(dāng)前BFM的最新進(jìn)展,從預(yù)訓(xùn)練(Pre-training)和任務(wù)適配(Adaptation)兩個(gè)角度對(duì)當(dāng)前各類BFM算法提供了全面的分類體系,并且結(jié)合其他基礎(chǔ)模型(例如大語(yǔ)言模型、大規(guī)模視覺(jué)模型)的發(fā)展動(dòng)向?qū)FM的未來(lái)趨勢(shì)和研究機(jī)遇進(jìn)行了展望,有望對(duì)該領(lǐng)域的研究者和從業(yè)者產(chǎn)生引導(dǎo)作用。
論文標(biāo)題:
《ASurveyofBehaviorFoundationModel:Next-GenerationWhole-BodyControlSystemofHumanoidRobots》
論文鏈接:https://arxiv.org/pdf/2506.20487
項(xiàng)目主頁(yè):
https://github.com/yuanmingqi/awesome-bfm-papers
人型全身控制:從「定制化」到「通用化」
文章將人形全身控制算法的演化總結(jié)為下圖中的三個(gè)階段:
基于模型的控制器(Model-basedController):
以MPC、WBOSC等算法為代表,面向基礎(chǔ)的人形全身控制任務(wù),極度依賴物理模型并且需要復(fù)雜的人工設(shè)計(jì)與調(diào)校,且魯棒性較低。
基于學(xué)習(xí)的,面向特定任務(wù)的控制器(Learning-basedandTask-specificController):
以強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)等方法為代表,面向特定的、復(fù)雜的人形全身控制任務(wù),支持靈活的任務(wù)設(shè)計(jì),但跨任務(wù)的泛化性較差。
行為基礎(chǔ)模型(BehaviorFoundationModel):
在大規(guī)模人類行為數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練得到的模型,習(xí)得大量可復(fù)用的基礎(chǔ)技能以及廣泛的行為先驗(yàn),具備快速適應(yīng)不同任務(wù)的能力。
什么是行為基礎(chǔ)模型?
「行為基礎(chǔ)模型」這一術(shù)語(yǔ)首次出現(xiàn)在《FastImitationviaBehaviorFoundationModels》一文中,作者基于無(wú)監(jiān)督強(qiáng)化學(xué)習(xí)+前后向表征學(xué)習(xí)(Forward-backwardRepresentationLearning)方法構(gòu)建BFM,實(shí)現(xiàn)了對(duì)多種模仿學(xué)習(xí)規(guī)則的支持,包括行為克?。˙ehavioralCloning)、特征匹配(featurematching)、基于獎(jiǎng)勵(lì)/目標(biāo)的歸納(reward/goal-basedreductions)。
該工作也被ICLR2024接收為Spotlight文章。后續(xù)的其他工作則將BFM定義為:「對(duì)于一個(gè)給定的馬爾科夫過(guò)程,行為基礎(chǔ)模型是一類以無(wú)監(jiān)督強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到的智能體。在測(cè)試時(shí),可以為指定的大量獎(jiǎng)勵(lì)函數(shù)生成近似最優(yōu)的策略,而無(wú)需額外的學(xué)習(xí)或規(guī)劃」。
該綜述將BFM的定義拓展為:「一類特殊的基礎(chǔ)模型,旨在控制智能體在動(dòng)態(tài)環(huán)境中的行為。BFM植根于通用基礎(chǔ)模型(例如GPT-4、CLIP和SAM)的原理,使用大規(guī)模行為數(shù)據(jù)(例如軌跡、人類演示或智能體與環(huán)境的交互)進(jìn)行預(yù)訓(xùn)練,從而對(duì)廣泛的行為模式進(jìn)行編碼,而非局限于單任務(wù)場(chǎng)景。這一特性確保了模型能夠輕松地對(duì)不同任務(wù)、情境或環(huán)境進(jìn)行泛化,展現(xiàn)出靈活且自適應(yīng)的行為生成能力。」
主要算法分類
文章將當(dāng)前構(gòu)建BFM的方法分為三類:目標(biāo)導(dǎo)向的學(xué)習(xí)方法(Goal-conditionedLearning)、內(nèi)在獎(jiǎng)勵(lì)驅(qū)動(dòng)的學(xué)習(xí)方法(IntrinsicReward-drivenLearning),以及前后向表征學(xué)習(xí)方法(Forward-backwardRepresentationlearning)。
如下圖所示,目標(biāo)導(dǎo)向的學(xué)習(xí)方法會(huì)對(duì)智能體給予明確的任務(wù)指導(dǎo),通常直接將目標(biāo)輸入到智能體的策略中。目標(biāo)可以以多種形式指定,例如目標(biāo)狀態(tài)、目標(biāo)函數(shù)或外部任務(wù)描述。
在目標(biāo)學(xué)習(xí)的各類方法中,以DeepMimic為代表的基于動(dòng)作追蹤(MotionTracking)的學(xué)習(xí)方法目前被廣泛地應(yīng)用于各類人型機(jī)器人任務(wù)中。在每個(gè)時(shí)間步,智能體通常被訓(xùn)練來(lái)跟蹤給定參考運(yùn)動(dòng)的關(guān)節(jié)角度或下一時(shí)間步的運(yùn)動(dòng)學(xué)姿態(tài)。相較于直接模仿整個(gè)運(yùn)動(dòng)(尤其是復(fù)雜運(yùn)動(dòng)),學(xué)習(xí)跟蹤單個(gè)姿態(tài)更容易實(shí)現(xiàn)且更具通用性,這也是基于跟蹤的學(xué)習(xí)的主要?jiǎng)訖C(jī)。
MaskedMimic是典型的基于目標(biāo)學(xué)習(xí)方法構(gòu)建的行為基礎(chǔ)模型,其包含兩個(gè)階段的訓(xùn)練過(guò)程。首先,MaskedMimic基于動(dòng)作追蹤方法對(duì)大量的行為數(shù)據(jù)進(jìn)行模仿,學(xué)習(xí)各類基礎(chǔ)運(yùn)動(dòng)技能。然后,將得到的底層控制器固定,并訓(xùn)練一個(gè)帶掩碼的變分自編碼器對(duì)底層控制器包含的知識(shí)進(jìn)行蒸餾得到高階策略。MaskedMimic支持多種控制模態(tài),并能在不同任務(wù)之間實(shí)現(xiàn)無(wú)縫切換。
在基于追蹤的學(xué)習(xí)中,智能體始終被賦予了明確的目標(biāo),并通過(guò)顯示指定的獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練,以實(shí)現(xiàn)定向的技能學(xué)習(xí)。相比之下,內(nèi)在獎(jiǎng)勵(lì)驅(qū)動(dòng)的學(xué)習(xí)則使用完全不同的方法,即激勵(lì)智能體對(duì)環(huán)境進(jìn)行探索,而不依賴于明確的特定任務(wù)獎(jiǎng)勵(lì)。智能體受內(nèi)在獎(jiǎng)勵(lì)的引導(dǎo),這些內(nèi)在獎(jiǎng)勵(lì)是自我生成的信號(hào),用于鼓勵(lì)探索、技能習(xí)得或者發(fā)現(xiàn)新奇的事物。
但是,只通過(guò)內(nèi)在獎(jiǎng)勵(lì)訓(xùn)練BFM存在顯著的限制,智能體通常需要進(jìn)行巨量的訓(xùn)練才能實(shí)現(xiàn)廣泛的行為覆蓋,同時(shí)有概率產(chǎn)生不可靠的行為先驗(yàn)(例如,不安全或不切實(shí)際的運(yùn)動(dòng)),特別是對(duì)于具有極其復(fù)雜動(dòng)力學(xué)的人形機(jī)器人而言。
因此,在實(shí)際應(yīng)用時(shí),內(nèi)在獎(jiǎng)勵(lì)往往要結(jié)合其他方法使用,例如目標(biāo)導(dǎo)向?qū)W習(xí),以確保學(xué)得模型的有效性。
近期BFM的主要進(jìn)步受益于一種新的學(xué)習(xí)框架——前后向表征學(xué)習(xí),其主要思想是將策略學(xué)習(xí)與特定任務(wù)目標(biāo)進(jìn)行解耦。前后向表征學(xué)習(xí)的核心是對(duì)后繼測(cè)度(SuccessorMeasure)進(jìn)行學(xué)習(xí),對(duì)于一個(gè)策略π,其后繼測(cè)度定義為:
其代表了對(duì)未來(lái)訪問(wèn)狀態(tài)分布的建模?;诤罄^測(cè)度,動(dòng)作價(jià)值函數(shù)可以表示為:
以上公式將動(dòng)作價(jià)值函數(shù)分解為兩部分:后繼測(cè)度和獎(jiǎng)勵(lì)函數(shù)。因此,只要學(xué)習(xí)到了策略π的后繼測(cè)度,即可對(duì)任意獎(jiǎng)勵(lì)函數(shù)對(duì)應(yīng)的動(dòng)作價(jià)值函數(shù)進(jìn)行零樣本估計(jì),而無(wú)需進(jìn)一步的訓(xùn)練。在具體學(xué)習(xí)時(shí),后繼測(cè)度又被分解為:
如下圖所示,我們分別使用一個(gè)前向嵌入網(wǎng)絡(luò)和一個(gè)后向嵌入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
最終,我們可以將策略表示為:
Meta基于前后向表征學(xué)習(xí)方法開(kāi)發(fā)了Motivo模型。如下圖所示,Motivo學(xué)習(xí)了廣泛的行為先驗(yàn),并展現(xiàn)出卓越的零樣本自適應(yīng)能力,可應(yīng)對(duì)各種下游任務(wù),包括復(fù)雜的運(yùn)動(dòng)模仿、姿勢(shì)達(dá)成和復(fù)合獎(jiǎng)勵(lì)優(yōu)化。并且,Motivo能夠在確保運(yùn)動(dòng)自然性的同時(shí)實(shí)現(xiàn)實(shí)時(shí)運(yùn)動(dòng)控制。
潛在應(yīng)用與現(xiàn)實(shí)限制
文章進(jìn)一步對(duì)BFM的潛在應(yīng)用和現(xiàn)實(shí)限制進(jìn)行了分析,如下圖所示:
應(yīng)用方面:
人形機(jī)器人的通用加速器:BFM包含了大量可復(fù)用的基礎(chǔ)技能和廣泛的行為先驗(yàn),可以消除白板訓(xùn)練,實(shí)現(xiàn)對(duì)下游任務(wù)的快速適應(yīng)。諸如Motivo等高級(jí)BFM能直接將高級(jí)任務(wù)映射為控制動(dòng)作,大幅縮短開(kāi)發(fā)周期。虛擬智能體與游戲開(kāi)發(fā):BFM能生成逼真、情境感知的NPC行為,結(jié)合LLMs實(shí)現(xiàn)復(fù)雜指令解析,為游戲提供前所未有的交互真實(shí)感。工業(yè)5.0:BFMs使人形機(jī)器人融合預(yù)訓(xùn)練技能與實(shí)時(shí)適應(yīng)性,支持多任務(wù)切換和直觀人機(jī)協(xié)作,推動(dòng)以人為中心的彈性制造。醫(yī)療與輔助機(jī)器人:BFMs幫助機(jī)器人在非結(jié)構(gòu)化環(huán)境中適應(yīng)多樣化需求,如個(gè)性化康復(fù)訓(xùn)練和日常輔助任務(wù),應(yīng)對(duì)人口老齡化挑戰(zhàn)。
限制方面:
Sim2Real困難:BFM在學(xué)習(xí)豐富行為技能的同時(shí),也加劇了仿真與現(xiàn)實(shí)的差異,如動(dòng)力學(xué)不匹配和感知域偏移,目前的實(shí)際應(yīng)用仍主要局限于仿真環(huán)境,真實(shí)部署面臨行為泛化不穩(wěn)定等挑戰(zhàn)。數(shù)據(jù)瓶頸:BFMs訓(xùn)練數(shù)據(jù)規(guī)模遠(yuǎn)小于LLMs或視覺(jué)模型,且機(jī)器人真實(shí)數(shù)據(jù)稀缺,多模態(tài)數(shù)據(jù)(如視覺(jué)-本體感知-觸覺(jué)對(duì)齊)尤其缺乏,亟需更大規(guī)模、高質(zhì)量數(shù)據(jù)集支撐發(fā)展。具身泛化:當(dāng)前BFMs僅針對(duì)特定機(jī)器人形態(tài)訓(xùn)練,難以適應(yīng)不同構(gòu)型(如關(guān)節(jié)類型、驅(qū)動(dòng)方式或傳感器配置),需開(kāi)發(fā)更具通用性的架構(gòu)以實(shí)現(xiàn)跨平臺(tái)技能遷移。
未來(lái)研究機(jī)會(huì)與伴隨風(fēng)險(xiǎn)
最后,文章探索了未來(lái)的研究機(jī)會(huì)和伴隨的風(fēng)險(xiǎn):
研究機(jī)會(huì)方面:
多模態(tài)BFM:未來(lái)BFM需整合視覺(jué)、觸覺(jué)等多模態(tài)感知輸入,以增強(qiáng)非結(jié)構(gòu)化環(huán)境中的適應(yīng)能力,但面臨數(shù)據(jù)集和訓(xùn)練范式的挑戰(zhàn)。高級(jí)機(jī)器學(xué)習(xí)系統(tǒng):BFM可與LLM等結(jié)合,形成認(rèn)知-運(yùn)動(dòng)一體化架構(gòu),由LLM負(fù)責(zé)任務(wù)規(guī)劃,BFM執(zhí)行實(shí)時(shí)控制,實(shí)現(xiàn)復(fù)雜任務(wù)的靈活處理??s放定律:BFM的性能可能隨模型規(guī)模、數(shù)據(jù)量和計(jì)算資源提升而增強(qiáng),但需平衡行為多樣性與控制效率,其中數(shù)據(jù)質(zhì)量對(duì)行為先驗(yàn)的學(xué)習(xí)尤為關(guān)鍵。后訓(xùn)練優(yōu)化:借鑒LLM中的的微調(diào)、RL對(duì)齊和測(cè)試時(shí)優(yōu)化技術(shù),可提升BFM的行為對(duì)齊性和實(shí)時(shí)計(jì)算效率,需開(kāi)發(fā)針對(duì)機(jī)器人控制的專用方法。多智能體系統(tǒng):BFM能免除單機(jī)器人基礎(chǔ)技能訓(xùn)練,直接支持多機(jī)協(xié)作研究,但需開(kāi)發(fā)基于群體交互數(shù)據(jù)的新型模型以解決物理協(xié)調(diào)難題。評(píng)估機(jī)制:當(dāng)前缺乏BFM的標(biāo)準(zhǔn)化評(píng)估體系,未來(lái)需構(gòu)建涵蓋任務(wù)泛化性、魯棒性和人機(jī)安全的多維度基準(zhǔn),推動(dòng)通用物理控制器發(fā)展。
風(fēng)險(xiǎn)方面:
倫理問(wèn)題
訓(xùn)練數(shù)據(jù)的局限性可能導(dǎo)致機(jī)器人行為編碼人口偏見(jiàn)或泄露用戶健康隱私,而其實(shí)體化部署可能放大有害動(dòng)作的社會(huì)風(fēng)險(xiǎn),亟需建立覆蓋數(shù)據(jù)規(guī)范和實(shí)時(shí)行為治理的新框架。
安全機(jī)制:
BFM面臨傳感器干擾引發(fā)的控制失效和多模態(tài)攻擊漏洞等風(fēng)險(xiǎn),需通過(guò)對(duì)抗訓(xùn)練和跨模態(tài)校驗(yàn)等機(jī)制確保其在開(kāi)放環(huán)境中的可靠性和安全性。這些挑戰(zhàn)要求研究者在技術(shù)創(chuàng)新的同時(shí),同步推進(jìn)倫理規(guī)范和安全防護(hù)體系的建設(shè)。
結(jié)語(yǔ)
該綜述首次系統(tǒng)性地梳理了行為基礎(chǔ)模型在人形機(jī)器人全身控制領(lǐng)域的引用,全面地介紹了相關(guān)技術(shù)演化歷史、方法分類、實(shí)際應(yīng)用、技術(shù)瓶頸以及未來(lái)研究機(jī)會(huì)與伴隨的風(fēng)險(xiǎn)。
盡管行為基礎(chǔ)模型展現(xiàn)出前所未有的強(qiáng)大能力,其也面臨著重大挑戰(zhàn),包括Sim2Real差距、實(shí)體依賴和數(shù)據(jù)稀缺等問(wèn)題。在未來(lái)的工作中解決這些局限性將有助于開(kāi)發(fā)更可靠、更通用的行為基礎(chǔ)模型。
希望我們的工作能啟發(fā)更多相關(guān)的后續(xù)研究!
來(lái)源:紅網(wǎng)
作者:宓雅媚
編輯:連琬
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。