作者介紹:盛舉義,北京大學(xué)在讀博士研究生,研究方向為機(jī)器人操作技能學(xué)習(xí)方法研究;王梓懿、李培銘,北京大學(xué)在讀碩士研究生,研究方向為視頻理解分析;劉勇,浙江大學(xué)控制科學(xué)與工程學(xué)院教授,研究領(lǐng)域為自主機(jī)器人與智能系統(tǒng);劉夢源,北京大學(xué)深圳研究生院助理教授,研究領(lǐng)域為人類行為理解與機(jī)器人技能學(xué)習(xí)。
在目前的VLA模型中,「A」—動作生成模型決定了動作生成的質(zhì)量以及速度。具體而言,生成式模型在推理速度與任務(wù)成功率之間存在「根本性權(quán)衡」。
其中,DiffusionModels(如DiffusionPolicy和DP3)通過多步迭代生成高質(zhì)量動作序列,但推理速度較慢,難以滿足實時控制要求;而Flow-based模型(如FlowPolicy)盡管能提供快速推理,但需要額外的架構(gòu)約束或一致性損失(consistencyloss)來保證軌跡的有效性,這增加了設(shè)計復(fù)雜性并可能限制性能和泛化能力。
此外,機(jī)器人操作面臨另一個挑戰(zhàn),即數(shù)據(jù)高效的少樣本泛化。標(biāo)準(zhǔn)模仿學(xué)習(xí)策略容易出現(xiàn)「特征坍塌(featurecollapse)」,即將需要不同動作的關(guān)鍵狀態(tài)錯誤地映射到相似的潛在表征latentrepresentation)上,導(dǎo)致模型在新情境下無法做出準(zhǔn)確反應(yīng)。因此,提升模型對不同狀態(tài)的區(qū)分能力是提高策略泛化性的關(guān)鍵。
為應(yīng)對上述挑戰(zhàn),來自北大的研究團(tuán)隊提出名為MP1的全新機(jī)器人學(xué)習(xí)框架。該框架首次將近期在圖像生成領(lǐng)域取得突破的MeanFlow范式引入機(jī)器人學(xué)習(xí),實現(xiàn)毫秒級推理速度,為VLA動作生成模型打下基礎(chǔ)。
論文標(biāo)題:MP1:MeanFlowTamesPolicyLearningin1-stepforRoboticManipulation論文鏈接:https://arxiv.org/abs/2507.10543代碼鏈接:https://github.com/LogSSim/MP1
MP1的核心引擎——MeanFlow范式
MP1的核心創(chuàng)新在于其生成范式的根本轉(zhuǎn)變。傳統(tǒng)FlowMatching學(xué)習(xí)的是一個瞬時速度場(instantaneousvelocityfield),在推理時需要通過迭代式求解常微分方程(ODE)來積分生成軌跡,這一過程不僅耗時,且會引入并累積數(shù)值誤差。與之相反,MP1直接學(xué)習(xí)從初始噪聲到目標(biāo)動作的區(qū)間平均速度場(interval-averagedvelocityfield)。
技術(shù)上,MP1利用了「MeanFlowIdentity」,使模型能夠直接對平均速度場進(jìn)行建模,而無需在推理時進(jìn)行任何積分求解。這一設(shè)計帶來了兩大核心優(yōu)勢:
真正的單步生成(1-NFE):模型僅需一次網(wǎng)絡(luò)前向傳播,即可從隨機(jī)噪聲直接生成完整動作軌跡,徹底擺脫了對迭代式ODE求解器的依賴。無約束的簡潔性:得益于其數(shù)學(xué)形式的完備性,MP1天然保證了軌跡質(zhì)量,無需引入FlowPolicy等方法所依賴的外部一致性約束,使模型設(shè)計更為簡潔、優(yōu)雅。
這種從數(shù)學(xué)原理上解決問題的方式,而非依賴工程技巧進(jìn)行修補(bǔ),使得MP1不僅實現(xiàn)了速度的飛躍,更重要的是,其單次、確定性的前向傳播過程保證了推理時間的高度穩(wěn)定,這能夠保證機(jī)器人操作任務(wù)中的實時性。
分散損失提升少樣本泛化能力
在解決軌跡生成的動態(tài)問題后,MP1針對機(jī)器人學(xué)習(xí)中的「表征坍塌」問題進(jìn)行了改進(jìn)。該問題指的是策略網(wǎng)絡(luò)將需要不同動作的關(guān)鍵狀態(tài)錯誤地映射到相近的潛在空間位置,從而導(dǎo)致模型在少樣本學(xué)習(xí)中泛化能力下降。
MP1引入了來自表征學(xué)習(xí)領(lǐng)域的最新方法——分散損失(DispersiveLoss)。這是一種輕量級、僅在訓(xùn)練階段生效的正則化項,旨在直接優(yōu)化策略網(wǎng)絡(luò)的內(nèi)部表征空間。其核心思想是在訓(xùn)練的每個mini-batch中,對不同輸入樣本的潛在表征施加一種「排斥力」,強(qiáng)制它們在特征空間中相互分散。該損失可以被理解為一種「無正樣本的對比損失」:策略網(wǎng)絡(luò)主要的回歸目標(biāo)負(fù)責(zé)將每個狀態(tài)「拉向」其對應(yīng)的專家動作,而分散損失則負(fù)責(zé)將不同狀態(tài)的表征相互「推開」,從而塑造出一個更具辨識度的特征空間。
分散損失的關(guān)鍵優(yōu)勢在于它是一個僅在訓(xùn)練時生效的正則化器,在不增加任何推理開銷的前提下,顯著提升了模型區(qū)分細(xì)微場景差異的能力,完美保留了MP1標(biāo)志性的毫秒級響應(yīng)速度。在數(shù)據(jù)采集成本高昂的機(jī)器人領(lǐng)域,這種能從極少量(如5-10個)示教中高效學(xué)習(xí)的能力至關(guān)重要。
MP1的仿真測試表現(xiàn)
MP1的性能優(yōu)勢在涵蓋37個復(fù)雜操作任務(wù)的Adroit與Meta-World基準(zhǔn)測試中得到了驗證。
出色的任務(wù)成功率與穩(wěn)定性
在任務(wù)成功率方面,MP1平均成功率達(dá)到78.9%,相較于當(dāng)前先進(jìn)的流模型FlowPolicy(71.6%)和擴(kuò)散模型DP3(68.7%),分別實現(xiàn)了7.3%和10.2%的顯著提升。
尤為關(guān)鍵的是,MP1的優(yōu)勢在更高難度的任務(wù)中愈發(fā)凸顯。在Meta-World的「中等」、「困難」及「非常困難」任務(wù)集上,MP1相較于FlowPolicy的成功率增幅分別高達(dá)9.8%、17.9%和15.0%。此外,MP1展現(xiàn)出極高的性能穩(wěn)定性。在多次隨機(jī)種子實驗中,其成功率的平均標(biāo)準(zhǔn)差僅為±2.1%,遠(yuǎn)低于其他基線方法,證明了其結(jié)果的高度可靠性與可復(fù)現(xiàn)性。
卓越的推理效率與實時控制能力
在實現(xiàn)更高成功率的同時,MP1的推理速度同樣刷新了紀(jì)錄。在NVIDIARTX4090GPU上,其平均推理耗時僅為6.8ms
這一速度比當(dāng)前最快的流模型FlowPolicy(12.6ms)快了近2倍,更比強(qiáng)大的擴(kuò)散模型DP3(132.2ms)快了19倍。如此低的延遲意味著MP1的決策環(huán)路完全滿足機(jī)器人領(lǐng)域典型的實時控制頻率(通常為20-50毫秒)。
少樣本學(xué)習(xí)能力驗證
為了進(jìn)一步驗證分散損失在提升模型數(shù)據(jù)效率上的作用,研究團(tuán)隊還進(jìn)行了少樣本學(xué)習(xí)的消融實驗。
實驗結(jié)果表明,MP1在所有數(shù)據(jù)量級上均一致地優(yōu)于FlowPolicy,尤其是在示教數(shù)據(jù)極為稀少(如2-5個)的極端少樣本場景下。這有力地證明了分散損失通過優(yōu)化內(nèi)部表征空間,能夠有效提升策略少樣本學(xué)習(xí)的泛化能力,這可以降低真機(jī)部署時大量數(shù)據(jù)的需求。
MP1的真機(jī)驗證
研究團(tuán)隊將MP1部署于一臺ARXR5雙臂機(jī)器人上,并在五個真實的桌面操作任務(wù)中進(jìn)行了測試。
實驗結(jié)果進(jìn)一步印證了MP1的性能。在所有五項任務(wù)中,MP1均取得了最高的成功率和最短的任務(wù)完成時間。以「Hummer」任務(wù)為例,MP1的成功率高達(dá)90%,遠(yuǎn)超F(xiàn)lowPolicy和DP3的70%;同時,其平均任務(wù)耗時僅18.6秒,顯著快于FlowPolicy(22.3秒)和DP3(31.1秒)。
校草大人有點(diǎn)壞 專門欺負(fù)小姑娘。 校草大人脾氣差。 一言不合就開吻。 校草大人會撩人。 一個眼神放倒你。 自從惹了校草 分分鐘都要被吻怎么破 沒事, 咱唇厚吻不破。 但被索吻算什么? 秒秒鐘撲倒才是重頭戲 咚咚咚, 你想要的咚, 這里都有。 壁咚? 腿咚? 床 咚? 咚咚咚, 想要怎么咚就怎么咚。 校草大人嘴邊擒著一抹邪魅地笑容, 眉頭微微上揚(yáng)著, 說 趁你還有力氣, 可以多說點(diǎn)話, 等會兒…… 恐怕你連呼吸都困難。免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。