作者介紹:盛舉義,北京大學(xué)在讀博士研究生,研究方向?yàn)闄C(jī)器人操作技能學(xué)習(xí)方法研究;王梓懿、李培銘,北京大學(xué)在讀碩士研究生,研究方向?yàn)橐曨l理解分析;劉勇,浙江大學(xué)控制科學(xué)與工程學(xué)院教授,研究領(lǐng)域?yàn)樽灾鳈C(jī)器人與智能系統(tǒng);劉夢(mèng)源,北京大學(xué)深圳研究生院助理教授,研究領(lǐng)域?yàn)槿祟愋袨槔斫馀c機(jī)器人技能學(xué)習(xí)。
在目前的VLA模型中,「A」—?jiǎng)幼魃赡P蜎Q定了動(dòng)作生成的質(zhì)量以及速度。具體而言,生成式模型在推理速度與任務(wù)成功率之間存在「根本性權(quán)衡」。
其中,DiffusionModels(如DiffusionPolicy和DP3)通過(guò)多步迭代生成高質(zhì)量動(dòng)作序列,但推理速度較慢,難以滿足實(shí)時(shí)控制要求;而Flow-based模型(如FlowPolicy)盡管能提供快速推理,但需要額外的架構(gòu)約束或一致性損失(consistencyloss)來(lái)保證軌跡的有效性,這增加了設(shè)計(jì)復(fù)雜性并可能限制性能和泛化能力。
此外,機(jī)器人操作面臨另一個(gè)挑戰(zhàn),即數(shù)據(jù)高效的少樣本泛化。標(biāo)準(zhǔn)模仿學(xué)習(xí)策略容易出現(xiàn)「特征坍塌(featurecollapse)」,即將需要不同動(dòng)作的關(guān)鍵狀態(tài)錯(cuò)誤地映射到相似的潛在表征latentrepresentation)上,導(dǎo)致模型在新情境下無(wú)法做出準(zhǔn)確反應(yīng)。因此,提升模型對(duì)不同狀態(tài)的區(qū)分能力是提高策略泛化性的關(guān)鍵。
為應(yīng)對(duì)上述挑戰(zhàn),來(lái)自北大的研究團(tuán)隊(duì)提出名為MP1的全新機(jī)器人學(xué)習(xí)框架。該框架首次將近期在圖像生成領(lǐng)域取得突破的MeanFlow范式引入機(jī)器人學(xué)習(xí),實(shí)現(xiàn)毫秒級(jí)推理速度,為VLA動(dòng)作生成模型打下基礎(chǔ)。
論文標(biāo)題:MP1:MeanFlowTamesPolicyLearningin1-stepforRoboticManipulation論文鏈接:https://arxiv.org/abs/2507.10543代碼鏈接:https://github.com/LogSSim/MP1
MP1的核心引擎——MeanFlow范式
MP1的核心創(chuàng)新在于其生成范式的根本轉(zhuǎn)變。傳統(tǒng)FlowMatching學(xué)習(xí)的是一個(gè)瞬時(shí)速度場(chǎng)(instantaneousvelocityfield),在推理時(shí)需要通過(guò)迭代式求解常微分方程(ODE)來(lái)積分生成軌跡,這一過(guò)程不僅耗時(shí),且會(huì)引入并累積數(shù)值誤差。與之相反,MP1直接學(xué)習(xí)從初始噪聲到目標(biāo)動(dòng)作的區(qū)間平均速度場(chǎng)(interval-averagedvelocityfield)。
技術(shù)上,MP1利用了「MeanFlowIdentity」,使模型能夠直接對(duì)平均速度場(chǎng)進(jìn)行建模,而無(wú)需在推理時(shí)進(jìn)行任何積分求解。這一設(shè)計(jì)帶來(lái)了兩大核心優(yōu)勢(shì):
真正的單步生成(1-NFE):模型僅需一次網(wǎng)絡(luò)前向傳播,即可從隨機(jī)噪聲直接生成完整動(dòng)作軌跡,徹底擺脫了對(duì)迭代式ODE求解器的依賴。無(wú)約束的簡(jiǎn)潔性:得益于其數(shù)學(xué)形式的完備性,MP1天然保證了軌跡質(zhì)量,無(wú)需引入FlowPolicy等方法所依賴的外部一致性約束,使模型設(shè)計(jì)更為簡(jiǎn)潔、優(yōu)雅。
這種從數(shù)學(xué)原理上解決問(wèn)題的方式,而非依賴工程技巧進(jìn)行修補(bǔ),使得MP1不僅實(shí)現(xiàn)了速度的飛躍,更重要的是,其單次、確定性的前向傳播過(guò)程保證了推理時(shí)間的高度穩(wěn)定,這能夠保證機(jī)器人操作任務(wù)中的實(shí)時(shí)性。
分散損失提升少樣本泛化能力
在解決軌跡生成的動(dòng)態(tài)問(wèn)題后,MP1針對(duì)機(jī)器人學(xué)習(xí)中的「表征坍塌」問(wèn)題進(jìn)行了改進(jìn)。該問(wèn)題指的是策略網(wǎng)絡(luò)將需要不同動(dòng)作的關(guān)鍵狀態(tài)錯(cuò)誤地映射到相近的潛在空間位置,從而導(dǎo)致模型在少樣本學(xué)習(xí)中泛化能力下降。
MP1引入了來(lái)自表征學(xué)習(xí)領(lǐng)域的最新方法——分散損失(DispersiveLoss)。這是一種輕量級(jí)、僅在訓(xùn)練階段生效的正則化項(xiàng),旨在直接優(yōu)化策略網(wǎng)絡(luò)的內(nèi)部表征空間。其核心思想是在訓(xùn)練的每個(gè)mini-batch中,對(duì)不同輸入樣本的潛在表征施加一種「排斥力」,強(qiáng)制它們?cè)谔卣骺臻g中相互分散。該損失可以被理解為一種「無(wú)正樣本的對(duì)比損失」:策略網(wǎng)絡(luò)主要的回歸目標(biāo)負(fù)責(zé)將每個(gè)狀態(tài)「拉向」其對(duì)應(yīng)的專家動(dòng)作,而分散損失則負(fù)責(zé)將不同狀態(tài)的表征相互「推開(kāi)」,從而塑造出一個(gè)更具辨識(shí)度的特征空間。
分散損失的關(guān)鍵優(yōu)勢(shì)在于它是一個(gè)僅在訓(xùn)練時(shí)生效的正則化器,在不增加任何推理開(kāi)銷的前提下,顯著提升了模型區(qū)分細(xì)微場(chǎng)景差異的能力,完美保留了MP1標(biāo)志性的毫秒級(jí)響應(yīng)速度。在數(shù)據(jù)采集成本高昂的機(jī)器人領(lǐng)域,這種能從極少量(如5-10個(gè))示教中高效學(xué)習(xí)的能力至關(guān)重要。
MP1的仿真測(cè)試表現(xiàn)
MP1的性能優(yōu)勢(shì)在涵蓋37個(gè)復(fù)雜操作任務(wù)的Adroit與Meta-World基準(zhǔn)測(cè)試中得到了驗(yàn)證。
出色的任務(wù)成功率與穩(wěn)定性
在任務(wù)成功率方面,MP1平均成功率達(dá)到78.9%,相較于當(dāng)前先進(jìn)的流模型FlowPolicy(71.6%)和擴(kuò)散模型DP3(68.7%),分別實(shí)現(xiàn)了7.3%和10.2%的顯著提升。
尤為關(guān)鍵的是,MP1的優(yōu)勢(shì)在更高難度的任務(wù)中愈發(fā)凸顯。在Meta-World的「中等」、「困難」及「非常困難」任務(wù)集上,MP1相較于FlowPolicy的成功率增幅分別高達(dá)9.8%、17.9%和15.0%。此外,MP1展現(xiàn)出極高的性能穩(wěn)定性。在多次隨機(jī)種子實(shí)驗(yàn)中,其成功率的平均標(biāo)準(zhǔn)差僅為±2.1%,遠(yuǎn)低于其他基線方法,證明了其結(jié)果的高度可靠性與可復(fù)現(xiàn)性。
卓越的推理效率與實(shí)時(shí)控制能力
在實(shí)現(xiàn)更高成功率的同時(shí),MP1的推理速度同樣刷新了紀(jì)錄。在NVIDIARTX4090GPU上,其平均推理耗時(shí)僅為6.8ms
這一速度比當(dāng)前最快的流模型FlowPolicy(12.6ms)快了近2倍,更比強(qiáng)大的擴(kuò)散模型DP3(132.2ms)快了19倍。如此低的延遲意味著MP1的決策環(huán)路完全滿足機(jī)器人領(lǐng)域典型的實(shí)時(shí)控制頻率(通常為20-50毫秒)。
少樣本學(xué)習(xí)能力驗(yàn)證
為了進(jìn)一步驗(yàn)證分散損失在提升模型數(shù)據(jù)效率上的作用,研究團(tuán)隊(duì)還進(jìn)行了少樣本學(xué)習(xí)的消融實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果表明,MP1在所有數(shù)據(jù)量級(jí)上均一致地優(yōu)于FlowPolicy,尤其是在示教數(shù)據(jù)極為稀少(如2-5個(gè))的極端少樣本場(chǎng)景下。這有力地證明了分散損失通過(guò)優(yōu)化內(nèi)部表征空間,能夠有效提升策略少樣本學(xué)習(xí)的泛化能力,這可以降低真機(jī)部署時(shí)大量數(shù)據(jù)的需求。
MP1的真機(jī)驗(yàn)證
研究團(tuán)隊(duì)將MP1部署于一臺(tái)ARXR5雙臂機(jī)器人上,并在五個(gè)真實(shí)的桌面操作任務(wù)中進(jìn)行了測(cè)試。
實(shí)驗(yàn)結(jié)果進(jìn)一步印證了MP1的性能。在所有五項(xiàng)任務(wù)中,MP1均取得了最高的成功率和最短的任務(wù)完成時(shí)間。以「Hummer」任務(wù)為例,MP1的成功率高達(dá)90%,遠(yuǎn)超F(xiàn)lowPolicy和DP3的70%;同時(shí),其平均任務(wù)耗時(shí)僅18.6秒,顯著快于FlowPolicy(22.3秒)和DP3(31.1秒)。
成名大作《都市修真醫(yī)圣》,最反套路的細(xì)節(jié),完美填補(bǔ)書荒的心塞...
都市修真醫(yī)圣,三流大學(xué)生如何開(kāi)啟神秘武道與醫(yī)道之路?
二十閑余的作品爽點(diǎn)十足,人氣爆炸!《都市修真醫(yī)圣》內(nèi)容太差勁