作者簡(jiǎn)介:由來(lái)自北京大學(xué)、香港中文大學(xué)、北京智源研究院、智平方的老師同學(xué)聯(lián)合研究,作者包括博士生陳浩、劉家銘、顧晨陽(yáng)、劉卓洋,通訊作者為北京大學(xué)仉尚航。北京大學(xué)HMI實(shí)驗(yàn)室長(zhǎng)期致力于具身智能和多模態(tài)學(xué)習(xí)領(lǐng)域的研究,歡迎關(guān)注。
快執(zhí)行與慢思考:
在機(jī)器人操控領(lǐng)域,實(shí)現(xiàn)高頻響應(yīng)與復(fù)雜推理的統(tǒng)一,一直是一個(gè)重大技術(shù)挑戰(zhàn)。近期,北京大學(xué)與香港中文大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)布了名為Fast-in-Slow(FiS-VLA)的全新雙系統(tǒng)視覺-語(yǔ)言-動(dòng)作模型。不同之前的快慢系統(tǒng)VLA方法需要初始化/引入一個(gè)全新的快速執(zhí)行模塊,該方法通過(guò)將快速執(zhí)行模塊嵌入預(yù)訓(xùn)練視覺-語(yǔ)言模型(VLM)中,實(shí)現(xiàn)快慢系統(tǒng)一體化的設(shè)計(jì)。同時(shí),針對(duì)雙系統(tǒng)設(shè)計(jì)了異構(gòu)模態(tài)輸入與異步運(yùn)行頻率的策略,使得FiS-VLA既能實(shí)現(xiàn)快速動(dòng)作生成,也具備慢思考能力。該方法在多個(gè)仿真與真機(jī)平臺(tái)上取得了優(yōu)異表現(xiàn)。最令人矚目的是,F(xiàn)iS-VLA-7B可以實(shí)現(xiàn)高達(dá)117.7Hz的控制頻率,大幅領(lǐng)先于現(xiàn)有主流方案,展示了其廣闊的實(shí)際應(yīng)用潛力。
論文鏈接:
項(xiàng)目主頁(yè):
https://fast-in-slow.github.io/
代碼鏈接:
https://github.com/CHEN-H01/Fast-in-Slow
PKUHMI實(shí)驗(yàn)室主頁(yè):
https://pku-hmi-lab.github.io/HMI-Web/index.html
研究背景與挑戰(zhàn):
機(jī)器人操作系統(tǒng)的目標(biāo)是在復(fù)雜環(huán)境中,依據(jù)傳感器輸入和語(yǔ)言指令,生成精確有效的控制信號(hào)。雖然近年來(lái)大規(guī)模的視覺-語(yǔ)言模型(VLMs)因其強(qiáng)大的預(yù)訓(xùn)練能力被引入到機(jī)器人領(lǐng)域,但其龐大的模型參數(shù)和較慢的推理速度,限制了其在高頻控制任務(wù)中的實(shí)用性。
為此,一些研究引入Kahneman的“雙系統(tǒng)理論”:系統(tǒng)1代表快速、直覺式的決策系統(tǒng),系統(tǒng)2代表緩慢但深度推理的系統(tǒng)。在這一理論的啟發(fā)下,已有方法嘗試構(gòu)建雙系統(tǒng)結(jié)構(gòu),即使用VLM作為系統(tǒng)2進(jìn)行任務(wù)級(jí)理解,再使用額外的策略頭(系統(tǒng)1)進(jìn)行動(dòng)作預(yù)測(cè)。但現(xiàn)有設(shè)計(jì)中兩個(gè)系統(tǒng)相對(duì)獨(dú)立,無(wú)法充分共享系統(tǒng)2的預(yù)訓(xùn)練知識(shí),導(dǎo)致協(xié)同效率低下,系統(tǒng)1缺乏對(duì)系統(tǒng)2語(yǔ)義推理結(jié)果的充分利用。
Fast-in-slowVLA(如何在慢系統(tǒng)中分化出執(zhí)行模塊)
FiS-VLA提出一種創(chuàng)新結(jié)構(gòu),將VLM的末端幾層Transformer模塊直接重構(gòu)為系統(tǒng)1執(zhí)行模塊,嵌入原有系統(tǒng)2內(nèi)部,形成一個(gè)統(tǒng)一的高效推理與控制模型。系統(tǒng)2以低頻率處理2D圖像和語(yǔ)言指令,輸出指導(dǎo)特征;系統(tǒng)1以高頻率響應(yīng)實(shí)時(shí)感知輸入(狀態(tài)、圖像和點(diǎn)云),實(shí)現(xiàn)高效動(dòng)作生成。
此外,F(xiàn)iS-VLA采用雙系統(tǒng)感知協(xié)同訓(xùn)練策略,一方面利用擴(kuò)散建模增強(qiáng)系統(tǒng)1的動(dòng)作生成能力,另一方面保留系統(tǒng)2的高維語(yǔ)義推理能力,確保整體推理執(zhí)行的互補(bǔ)性。模型在超86萬(wàn)條軌跡的大規(guī)模機(jī)器人數(shù)據(jù)集上預(yù)訓(xùn)練,并在多個(gè)現(xiàn)實(shí)任務(wù)中微調(diào)優(yōu)化,顯著提升了任務(wù)完成率和控制頻率。
1.架構(gòu)設(shè)計(jì):FiS-VLA基于PrismaticVLM架構(gòu),主要包括以下模塊:視覺編碼器(結(jié)合SigLIP與DINOv2兩種視覺編碼器)、輕量級(jí)3Dtokenizer(處理點(diǎn)云并共享視覺編碼器提取空間特征)、大語(yǔ)言模型(使用LLaMA2-7B,并將其最后n層Transformer模塊重用于系統(tǒng)1),以及若干MLP模塊(用于模態(tài)融合和擴(kuò)散建模)。系統(tǒng)1直接嵌入系統(tǒng)2中的高維表示空間,使其能繼承預(yù)訓(xùn)練知識(shí)并實(shí)現(xiàn)高頻執(zhí)行,整個(gè)系統(tǒng)構(gòu)成“快中有慢、慢中有快”的協(xié)同結(jié)構(gòu)。
2.雙系統(tǒng)協(xié)作:FiS-VLA的結(jié)構(gòu)由兩個(gè)組成部分構(gòu)成:一個(gè)慢速的系統(tǒng)2和一個(gè)快速的系統(tǒng)1,這一設(shè)計(jì)靈感來(lái)源于Kahneman提出的雙系統(tǒng)理論。在FiS-VLA中,系統(tǒng)2會(huì)處理與任務(wù)相關(guān)的視覺觀測(cè)(如圖像)和語(yǔ)言指令,并將其轉(zhuǎn)化為高維特征,這些特征來(lái)自大語(yǔ)言模型(LLM)的中間層。借鑒“動(dòng)作塊化”的方法,F(xiàn)iS-VLA認(rèn)識(shí)到在時(shí)間步t的輸入可以為未來(lái)若干步的動(dòng)作生成提供指導(dǎo),因此FiS-VLA將系統(tǒng)2的中間層輸出作為一個(gè)潛在的條件信號(hào),為接下來(lái)的H步系統(tǒng)1的動(dòng)作生成提供約束。相較而言,系統(tǒng)1專注于實(shí)時(shí)動(dòng)作生成,它在每一個(gè)時(shí)間步上運(yùn)行,接收當(dāng)前的感知輸入并輸出動(dòng)作,同時(shí)也利用周期性更新的來(lái)自系統(tǒng)2的高維語(yǔ)義理解結(jié)果。這樣的行為模式類似于人類的直覺反應(yīng),使得系統(tǒng)1成為一個(gè)高頻率的動(dòng)作生成模塊。為了使兩個(gè)系統(tǒng)協(xié)同工作,F(xiàn)iS-VLA研究了它們之間的運(yùn)行頻率比例,并在消融實(shí)驗(yàn)中測(cè)試了不同的動(dòng)作預(yù)測(cè)視野,實(shí)質(zhì)上是在探索系統(tǒng)2每運(yùn)行一次,系統(tǒng)1應(yīng)連續(xù)運(yùn)行多少步。在訓(xùn)練階段,F(xiàn)iS-VLA采用異步采樣的方式控制系統(tǒng)2的運(yùn)行頻率,使得系統(tǒng)1能夠保持動(dòng)作生成過(guò)程的時(shí)間一致性。
另外,F(xiàn)iS-VLA采用異構(gòu)模態(tài)輸入設(shè)計(jì)。由于系統(tǒng)1與系統(tǒng)2在職責(zé)上存在根本差異,F(xiàn)iS-VLA為其設(shè)計(jì)了異構(gòu)的輸入模態(tài)。系統(tǒng)2主要承擔(dān)任務(wù)理解與語(yǔ)義推理的工作,作為一個(gè)在互聯(lián)網(wǎng)上以圖文數(shù)據(jù)大規(guī)模預(yù)訓(xùn)練而來(lái)的模型,它最適合接收語(yǔ)言指令與2D圖像,以充分激發(fā)其語(yǔ)義建模能力。系統(tǒng)1則用于實(shí)時(shí)生成機(jī)器人動(dòng)作,因此必須接收全面、低延遲的感知信息輸入,包括當(dāng)前時(shí)刻的2D圖像、機(jī)器人的自身狀態(tài)(如關(guān)節(jié)、位置等),以及通過(guò)相機(jī)參數(shù)從深度圖還原出的3D點(diǎn)云信息。特別是3D信息對(duì)于識(shí)別空間關(guān)系與實(shí)現(xiàn)精細(xì)操作至關(guān)重要。最終,系統(tǒng)1會(huì)將這些輸入模態(tài)與系統(tǒng)2輸出的高維特征共同融合,作為條件輸入進(jìn)行動(dòng)作生成。
3.FiS-VLA雙系統(tǒng)協(xié)同訓(xùn)練:系統(tǒng)1以擴(kuò)散建模為核心,注入帶噪動(dòng)作作為訓(xùn)練變量,實(shí)現(xiàn)連續(xù)性動(dòng)作生成;系統(tǒng)2則采用自回歸預(yù)測(cè)保留推理能力,這兩個(gè)訓(xùn)練目標(biāo)聯(lián)合優(yōu)化FiS-VLA。訓(xùn)練采用跨平臺(tái)大規(guī)模軌跡數(shù)據(jù)(約860K條軌跡),并在微調(diào)階段引入子任務(wù)語(yǔ)言指令增強(qiáng)任務(wù)適應(yīng)性。
精度、速度、泛化!
1.仿真測(cè)試:FiS-VLA在RLBench仿真任務(wù)中平均成功率為69%,顯著優(yōu)于CogACT(61%)與π0(55%),在10項(xiàng)任務(wù)中8項(xiàng)居首。在控制頻率上,其在動(dòng)作塊大小為1時(shí)達(dá)到21.9Hz,是CogACT的2倍以上。
2.真機(jī)測(cè)試:在真實(shí)機(jī)器人平臺(tái)(Agilex與AlphaBot)中,F(xiàn)iS-VLA在8項(xiàng)任務(wù)中平均成功率分別為68%與74%,遠(yuǎn)超π0基線。在高精度操控任務(wù)如“倒水”、“擦黑板”、“折毛巾”等場(chǎng)景下展現(xiàn)顯著優(yōu)勢(shì)。
3.泛化能力:在泛化測(cè)試中,面對(duì)未見物體、復(fù)雜背景與光照變化,F(xiàn)iS-VLA準(zhǔn)確率下降幅度遠(yuǎn)小于π0,驗(yàn)證其雙系統(tǒng)架構(gòu)對(duì)視覺擾動(dòng)的魯棒性。
4.消融實(shí)驗(yàn):消融實(shí)驗(yàn)表明,并非共享Transformer層數(shù)越多,系統(tǒng)1性能越強(qiáng),在共享Transformer層數(shù)為2的時(shí)候,F(xiàn)iS-VLA實(shí)現(xiàn)最佳性能;系統(tǒng)1接收機(jī)器人狀態(tài)、圖像與點(diǎn)云三種輸入模態(tài)效果最佳;系統(tǒng)1和系統(tǒng)2協(xié)作的最佳頻率比為1:4;FiS-VLA在不同actionchunk值下性能穩(wěn)定,而控制頻率呈比例提升。特別當(dāng)單步預(yù)測(cè)8個(gè)動(dòng)作時(shí),理論控制頻率高達(dá)117.7Hz;同時(shí)最后作者還研究了FiS-VLA的一系列變體(模型輸入的變體)。
5.真機(jī)實(shí)驗(yàn)可視化
總結(jié)與展望:
FiS-VLA通過(guò)在統(tǒng)一VLM中嵌入執(zhí)行模塊,創(chuàng)新性地融合推理與控制,實(shí)現(xiàn)了高頻、高精度、強(qiáng)泛化的機(jī)器人操控能力。作者討論到,未來(lái)若引入動(dòng)態(tài)調(diào)整共享結(jié)構(gòu)與協(xié)同頻率策略,將進(jìn)一步提升其在實(shí)際任務(wù)中的自適應(yīng)性與魯棒性。
延伸閱讀:與 “模擬大腦”功能分化 北大:與港中文發(fā)布FastinSlow; VLA 的相關(guān)文章