作者簡介:由來自北京大學、香港中文大學、北京智源研究院、智平方的老師同學聯(lián)合研究,作者包括博士生陳浩、劉家銘、顧晨陽、劉卓洋,通訊作者為北京大學仉尚航。北京大學HMI實驗室長期致力于具身智能和多模態(tài)學習領(lǐng)域的研究,歡迎關(guān)注。
快執(zhí)行與慢思考:
在機器人操控領(lǐng)域,實現(xiàn)高頻響應(yīng)與復雜推理的統(tǒng)一,一直是一個重大技術(shù)挑戰(zhàn)。近期,北京大學與香港中文大學的研究團隊聯(lián)合發(fā)布了名為Fast-in-Slow(FiS-VLA)的全新雙系統(tǒng)視覺-語言-動作模型。不同之前的快慢系統(tǒng)VLA方法需要初始化/引入一個全新的快速執(zhí)行模塊,該方法通過將快速執(zhí)行模塊嵌入預訓練視覺-語言模型(VLM)中,實現(xiàn)快慢系統(tǒng)一體化的設(shè)計。同時,針對雙系統(tǒng)設(shè)計了異構(gòu)模態(tài)輸入與異步運行頻率的策略,使得FiS-VLA既能實現(xiàn)快速動作生成,也具備慢思考能力。該方法在多個仿真與真機平臺上取得了優(yōu)異表現(xiàn)。最令人矚目的是,F(xiàn)iS-VLA-7B可以實現(xiàn)高達117.7Hz的控制頻率,大幅領(lǐng)先于現(xiàn)有主流方案,展示了其廣闊的實際應(yīng)用潛力。
論文鏈接:
項目主頁:
https://fast-in-slow.github.io/
代碼鏈接:
https://github.com/CHEN-H01/Fast-in-Slow
PKUHMI實驗室主頁:
https://pku-hmi-lab.github.io/HMI-Web/index.html
研究背景與挑戰(zhàn):
機器人操作系統(tǒng)的目標是在復雜環(huán)境中,依據(jù)傳感器輸入和語言指令,生成精確有效的控制信號。雖然近年來大規(guī)模的視覺-語言模型(VLMs)因其強大的預訓練能力被引入到機器人領(lǐng)域,但其龐大的模型參數(shù)和較慢的推理速度,限制了其在高頻控制任務(wù)中的實用性。
為此,一些研究引入Kahneman的“雙系統(tǒng)理論”:系統(tǒng)1代表快速、直覺式的決策系統(tǒng),系統(tǒng)2代表緩慢但深度推理的系統(tǒng)。在這一理論的啟發(fā)下,已有方法嘗試構(gòu)建雙系統(tǒng)結(jié)構(gòu),即使用VLM作為系統(tǒng)2進行任務(wù)級理解,再使用額外的策略頭(系統(tǒng)1)進行動作預測。但現(xiàn)有設(shè)計中兩個系統(tǒng)相對獨立,無法充分共享系統(tǒng)2的預訓練知識,導致協(xié)同效率低下,系統(tǒng)1缺乏對系統(tǒng)2語義推理結(jié)果的充分利用。
Fast-in-slowVLA(如何在慢系統(tǒng)中分化出執(zhí)行模塊)
FiS-VLA提出一種創(chuàng)新結(jié)構(gòu),將VLM的末端幾層Transformer模塊直接重構(gòu)為系統(tǒng)1執(zhí)行模塊,嵌入原有系統(tǒng)2內(nèi)部,形成一個統(tǒng)一的高效推理與控制模型。系統(tǒng)2以低頻率處理2D圖像和語言指令,輸出指導特征;系統(tǒng)1以高頻率響應(yīng)實時感知輸入(狀態(tài)、圖像和點云),實現(xiàn)高效動作生成。
此外,F(xiàn)iS-VLA采用雙系統(tǒng)感知協(xié)同訓練策略,一方面利用擴散建模增強系統(tǒng)1的動作生成能力,另一方面保留系統(tǒng)2的高維語義推理能力,確保整體推理執(zhí)行的互補性。模型在超86萬條軌跡的大規(guī)模機器人數(shù)據(jù)集上預訓練,并在多個現(xiàn)實任務(wù)中微調(diào)優(yōu)化,顯著提升了任務(wù)完成率和控制頻率。
1.架構(gòu)設(shè)計:FiS-VLA基于PrismaticVLM架構(gòu),主要包括以下模塊:視覺編碼器(結(jié)合SigLIP與DINOv2兩種視覺編碼器)、輕量級3Dtokenizer(處理點云并共享視覺編碼器提取空間特征)、大語言模型(使用LLaMA2-7B,并將其最后n層Transformer模塊重用于系統(tǒng)1),以及若干MLP模塊(用于模態(tài)融合和擴散建模)。系統(tǒng)1直接嵌入系統(tǒng)2中的高維表示空間,使其能繼承預訓練知識并實現(xiàn)高頻執(zhí)行,整個系統(tǒng)構(gòu)成“快中有慢、慢中有快”的協(xié)同結(jié)構(gòu)。
2.雙系統(tǒng)協(xié)作:FiS-VLA的結(jié)構(gòu)由兩個組成部分構(gòu)成:一個慢速的系統(tǒng)2和一個快速的系統(tǒng)1,這一設(shè)計靈感來源于Kahneman提出的雙系統(tǒng)理論。在FiS-VLA中,系統(tǒng)2會處理與任務(wù)相關(guān)的視覺觀測(如圖像)和語言指令,并將其轉(zhuǎn)化為高維特征,這些特征來自大語言模型(LLM)的中間層。借鑒“動作塊化”的方法,F(xiàn)iS-VLA認識到在時間步t的輸入可以為未來若干步的動作生成提供指導,因此FiS-VLA將系統(tǒng)2的中間層輸出作為一個潛在的條件信號,為接下來的H步系統(tǒng)1的動作生成提供約束。相較而言,系統(tǒng)1專注于實時動作生成,它在每一個時間步上運行,接收當前的感知輸入并輸出動作,同時也利用周期性更新的來自系統(tǒng)2的高維語義理解結(jié)果。這樣的行為模式類似于人類的直覺反應(yīng),使得系統(tǒng)1成為一個高頻率的動作生成模塊。為了使兩個系統(tǒng)協(xié)同工作,F(xiàn)iS-VLA研究了它們之間的運行頻率比例,并在消融實驗中測試了不同的動作預測視野,實質(zhì)上是在探索系統(tǒng)2每運行一次,系統(tǒng)1應(yīng)連續(xù)運行多少步。在訓練階段,F(xiàn)iS-VLA采用異步采樣的方式控制系統(tǒng)2的運行頻率,使得系統(tǒng)1能夠保持動作生成過程的時間一致性。
另外,F(xiàn)iS-VLA采用異構(gòu)模態(tài)輸入設(shè)計。由于系統(tǒng)1與系統(tǒng)2在職責上存在根本差異,F(xiàn)iS-VLA為其設(shè)計了異構(gòu)的輸入模態(tài)。系統(tǒng)2主要承擔任務(wù)理解與語義推理的工作,作為一個在互聯(lián)網(wǎng)上以圖文數(shù)據(jù)大規(guī)模預訓練而來的模型,它最適合接收語言指令與2D圖像,以充分激發(fā)其語義建模能力。系統(tǒng)1則用于實時生成機器人動作,因此必須接收全面、低延遲的感知信息輸入,包括當前時刻的2D圖像、機器人的自身狀態(tài)(如關(guān)節(jié)、位置等),以及通過相機參數(shù)從深度圖還原出的3D點云信息。特別是3D信息對于識別空間關(guān)系與實現(xiàn)精細操作至關(guān)重要。最終,系統(tǒng)1會將這些輸入模態(tài)與系統(tǒng)2輸出的高維特征共同融合,作為條件輸入進行動作生成。
3.FiS-VLA雙系統(tǒng)協(xié)同訓練:系統(tǒng)1以擴散建模為核心,注入帶噪動作作為訓練變量,實現(xiàn)連續(xù)性動作生成;系統(tǒng)2則采用自回歸預測保留推理能力,這兩個訓練目標聯(lián)合優(yōu)化FiS-VLA。訓練采用跨平臺大規(guī)模軌跡數(shù)據(jù)(約860K條軌跡),并在微調(diào)階段引入子任務(wù)語言指令增強任務(wù)適應(yīng)性。
精度、速度、泛化!
1.仿真測試:FiS-VLA在RLBench仿真任務(wù)中平均成功率為69%,顯著優(yōu)于CogACT(61%)與π0(55%),在10項任務(wù)中8項居首。在控制頻率上,其在動作塊大小為1時達到21.9Hz,是CogACT的2倍以上。
2.真機測試:在真實機器人平臺(Agilex與AlphaBot)中,F(xiàn)iS-VLA在8項任務(wù)中平均成功率分別為68%與74%,遠超π0基線。在高精度操控任務(wù)如“倒水”、“擦黑板”、“折毛巾”等場景下展現(xiàn)顯著優(yōu)勢。
3.泛化能力:在泛化測試中,面對未見物體、復雜背景與光照變化,F(xiàn)iS-VLA準確率下降幅度遠小于π0,驗證其雙系統(tǒng)架構(gòu)對視覺擾動的魯棒性。
4.消融實驗:消融實驗表明,并非共享Transformer層數(shù)越多,系統(tǒng)1性能越強,在共享Transformer層數(shù)為2的時候,F(xiàn)iS-VLA實現(xiàn)最佳性能;系統(tǒng)1接收機器人狀態(tài)、圖像與點云三種輸入模態(tài)效果最佳;系統(tǒng)1和系統(tǒng)2協(xié)作的最佳頻率比為1:4;FiS-VLA在不同actionchunk值下性能穩(wěn)定,而控制頻率呈比例提升。特別當單步預測8個動作時,理論控制頻率高達117.7Hz;同時最后作者還研究了FiS-VLA的一系列變體(模型輸入的變體)。
5.真機實驗可視化
總結(jié)與展望:
FiS-VLA通過在統(tǒng)一VLM中嵌入執(zhí)行模塊,創(chuàng)新性地融合推理與控制,實現(xiàn)了高頻、高精度、強泛化的機器人操控能力。作者討論到,未來若引入動態(tài)調(diào)整共享結(jié)構(gòu)與協(xié)同頻率策略,將進一步提升其在實際任務(wù)中的自適應(yīng)性與魯棒性。
中國歷史上最偉大的十大皇帝之明太祖朱元璋—布衣天子,經(jīng)略天下
歷史上的今天:朱元璋駕崩,布衣天子的傳奇落幕
金鑾殿絕響:布衣天子朱元璋的臨終心聲