中國佛教協(xié)會發(fā)布公告「同意對釋永信的戒牒予以注銷」,戒牒被注銷意味著什么?
讓人心疼的妹妹,如此優(yōu)秀卻放棄學業(yè)照顧家人,一定會好起來的!
有網(wǎng)友扒出《英雄聯(lián)盟》蘭博在藍色方與紅色方存在影響游戲平衡的 BUG 差異,具體影響有多大?
作者介紹:盛舉義,北京大學在讀博士研究生,研究方向為機器人操作技能學習方法研究;王梓懿、李培銘,北京大學在讀碩士研究生,研究方向為視頻理解分析;劉勇,浙江大學控制科學與工程學院教授,研究領域為自主機器人與智能系統(tǒng);劉夢源,北京大學深圳研究生院助理教授,研究領域為人類行為理解與機器人技能學習。
在目前的VLA模型中,「A」—動作生成模型決定了動作生成的質量以及速度。具體而言,生成式模型在推理速度與任務成功率之間存在「根本性權衡」。
其中,DiffusionModels(如DiffusionPolicy和DP3)通過多步迭代生成高質量動作序列,但推理速度較慢,難以滿足實時控制要求;而Flow-based模型(如FlowPolicy)盡管能提供快速推理,但需要額外的架構約束或一致性損失(consistencyloss)來保證軌跡的有效性,這增加了設計復雜性并可能限制性能和泛化能力。
此外,機器人操作面臨另一個挑戰(zhàn),即數(shù)據(jù)高效的少樣本泛化。標準模仿學習策略容易出現(xiàn)「特征坍塌(featurecollapse)」,即將需要不同動作的關鍵狀態(tài)錯誤地映射到相似的潛在表征latentrepresentation)上,導致模型在新情境下無法做出準確反應。因此,提升模型對不同狀態(tài)的區(qū)分能力是提高策略泛化性的關鍵。
為應對上述挑戰(zhàn),來自北大的研究團隊提出名為MP1的全新機器人學習框架。該框架首次將近期在圖像生成領域取得突破的MeanFlow范式引入機器人學習,實現(xiàn)毫秒級推理速度,為VLA動作生成模型打下基礎。
論文標題:MP1:MeanFlowTamesPolicyLearningin1-stepforRoboticManipulation論文鏈接:https://arxiv.org/abs/2507.10543代碼鏈接:https://github.com/LogSSim/MP1
MP1的核心引擎——MeanFlow范式
MP1的核心創(chuàng)新在于其生成范式的根本轉變。傳統(tǒng)FlowMatching學習的是一個瞬時速度場(instantaneousvelocityfield),在推理時需要通過迭代式求解常微分方程(ODE)來積分生成軌跡,這一過程不僅耗時,且會引入并累積數(shù)值誤差。與之相反,MP1直接學習從初始噪聲到目標動作的區(qū)間平均速度場(interval-averagedvelocityfield)。
技術上,MP1利用了「MeanFlowIdentity」,使模型能夠直接對平均速度場進行建模,而無需在推理時進行任何積分求解。這一設計帶來了兩大核心優(yōu)勢:
真正的單步生成(1-NFE):模型僅需一次網(wǎng)絡前向傳播,即可從隨機噪聲直接生成完整動作軌跡,徹底擺脫了對迭代式ODE求解器的依賴。無約束的簡潔性:得益于其數(shù)學形式的完備性,MP1天然保證了軌跡質量,無需引入FlowPolicy等方法所依賴的外部一致性約束,使模型設計更為簡潔、優(yōu)雅。
這種從數(shù)學原理上解決問題的方式,而非依賴工程技巧進行修補,使得MP1不僅實現(xiàn)了速度的飛躍,更重要的是,其單次、確定性的前向傳播過程保證了推理時間的高度穩(wěn)定,這能夠保證機器人操作任務中的實時性。
分散損失提升少樣本泛化能力
在解決軌跡生成的動態(tài)問題后,MP1針對機器人學習中的「表征坍塌」問題進行了改進。該問題指的是策略網(wǎng)絡將需要不同動作的關鍵狀態(tài)錯誤地映射到相近的潛在空間位置,從而導致模型在少樣本學習中泛化能力下降。
MP1引入了來自表征學習領域的最新方法——分散損失(DispersiveLoss)。這是一種輕量級、僅在訓練階段生效的正則化項,旨在直接優(yōu)化策略網(wǎng)絡的內部表征空間。其核心思想是在訓練的每個mini-batch中,對不同輸入樣本的潛在表征施加一種「排斥力」,強制它們在特征空間中相互分散。該損失可以被理解為一種「無正樣本的對比損失」:策略網(wǎng)絡主要的回歸目標負責將每個狀態(tài)「拉向」其對應的專家動作,而分散損失則負責將不同狀態(tài)的表征相互「推開」,從而塑造出一個更具辨識度的特征空間。
分散損失的關鍵優(yōu)勢在于它是一個僅在訓練時生效的正則化器,在不增加任何推理開銷的前提下,顯著提升了模型區(qū)分細微場景差異的能力,完美保留了MP1標志性的毫秒級響應速度。在數(shù)據(jù)采集成本高昂的機器人領域,這種能從極少量(如5-10個)示教中高效學習的能力至關重要。
MP1的仿真測試表現(xiàn)
MP1的性能優(yōu)勢在涵蓋37個復雜操作任務的Adroit與Meta-World基準測試中得到了驗證。
出色的任務成功率與穩(wěn)定性
在任務成功率方面,MP1平均成功率達到78.9%,相較于當前先進的流模型FlowPolicy(71.6%)和擴散模型DP3(68.7%),分別實現(xiàn)了7.3%和10.2%的顯著提升。
尤為關鍵的是,MP1的優(yōu)勢在更高難度的任務中愈發(fā)凸顯。在Meta-World的「中等」、「困難」及「非常困難」任務集上,MP1相較于FlowPolicy的成功率增幅分別高達9.8%、17.9%和15.0%。此外,MP1展現(xiàn)出極高的性能穩(wěn)定性。在多次隨機種子實驗中,其成功率的平均標準差僅為±2.1%,遠低于其他基線方法,證明了其結果的高度可靠性與可復現(xiàn)性。
卓越的推理效率與實時控制能力
在實現(xiàn)更高成功率的同時,MP1的推理速度同樣刷新了紀錄。在NVIDIARTX4090GPU上,其平均推理耗時僅為6.8ms
這一速度比當前最快的流模型FlowPolicy(12.6ms)快了近2倍,更比強大的擴散模型DP3(132.2ms)快了19倍。如此低的延遲意味著MP1的決策環(huán)路完全滿足機器人領域典型的實時控制頻率(通常為20-50毫秒)。
少樣本學習能力驗證
為了進一步驗證分散損失在提升模型數(shù)據(jù)效率上的作用,研究團隊還進行了少樣本學習的消融實驗。
實驗結果表明,MP1在所有數(shù)據(jù)量級上均一致地優(yōu)于FlowPolicy,尤其是在示教數(shù)據(jù)極為稀少(如2-5個)的極端少樣本場景下。這有力地證明了分散損失通過優(yōu)化內部表征空間,能夠有效提升策略少樣本學習的泛化能力,這可以降低真機部署時大量數(shù)據(jù)的需求。
MP1的真機驗證
研究團隊將MP1部署于一臺ARXR5雙臂機器人上,并在五個真實的桌面操作任務中進行了測試。
實驗結果進一步印證了MP1的性能。在所有五項任務中,MP1均取得了最高的成功率和最短的任務完成時間。以「Hummer」任務為例,MP1的成功率高達90%,遠超F(xiàn)lowPolicy和DP3的70%;同時,其平均任務耗時僅18.6秒,顯著快于FlowPolicy(22.3秒)和DP3(31.1秒)。