本文第一作者為香港科技大學(xué)(廣州)機(jī)器人系一年級(jí)博士生宋文軒,主要研究方向?yàn)閂LA模型,共同第一作者是來自香港科技大學(xué)廣州的研究助理陳家毅,項(xiàng)目leader為浙江大學(xué)和西湖大學(xué)聯(lián)合培養(yǎng)博士生丁鵬翔,他們也是具身智能領(lǐng)域開源項(xiàng)目OpenHelix以及LLaVA-VLA的研究團(tuán)隊(duì)。通訊作者為香港科技大學(xué)廣州的李昊昂教授,他是今年的CVPR2025BestPaperCandidate的獲得者。
近年來,視覺-語言-動(dòng)作(Vision-Language-Action,VLA)模型因其出色的多模態(tài)理解與泛化能力,已成為機(jī)器人領(lǐng)域的重要研究方向。盡管相關(guān)技術(shù)取得了顯著進(jìn)展,但在實(shí)際部署中,尤其是在高頻率和精細(xì)操作等任務(wù)中,VLA模型仍受到推理速度瓶頸的嚴(yán)重制約。
針對(duì)這一問題,部分研究提出采用Jacobi解碼替代傳統(tǒng)的自回歸解碼,以期提升推理效率。然而,由于Jacobi解碼往往需要較多迭代次數(shù),其加速效果在實(shí)踐中較為有限。
為此,我們提出了一種一致性蒸餾訓(xùn)練(consistencydistillationtraining)策略,使模型在每次迭代中能夠同時(shí)預(yù)測(cè)多個(gè)正確的動(dòng)作token,從而實(shí)現(xiàn)解碼加速。同時(shí),我們?cè)O(shè)計(jì)了混合標(biāo)簽監(jiān)督機(jī)制(mixed-labelsupervision),用于緩解蒸餾過程中可能產(chǎn)生的誤差積累問題。
盡管上述方法帶來了可接受的加速效果,我們進(jìn)一步觀察到:Jacobi解碼中仍存在若干低效迭代步驟,成為限制整體效率的關(guān)鍵瓶頸。為徹底解決該問題,本文提出一種提前退出(early-exit)解碼策略,通過適度放寬收斂條件,進(jìn)一步提升平均推理效率。
論文題目:
CEED-VLA:ConsistencyVision-Language-ActionModelwithEarly-ExitDecoding
項(xiàng)目主頁(yè):
https://irpn-eai.github.io/CEED-VLA/
論文鏈接:
代碼鏈接:
https://github.com/OpenHelix-Team/CEED-VLA
實(shí)驗(yàn)結(jié)果表明,我們所提出的方法在多個(gè)基線模型上實(shí)現(xiàn)了超過4倍的推理加速,同時(shí)在仿真與真實(shí)機(jī)器人任務(wù)中均保持了較高的任務(wù)成功率。這些實(shí)驗(yàn)驗(yàn)證了本方法在加速機(jī)器人多模態(tài)決策過程中的高效性與通用性,展現(xiàn)出良好的應(yīng)用前景??偟膩碚f,我們做出以下三大貢獻(xiàn):
(1)我們提出了一種通用的加速方法CEED-VLA,在保持操控性能的前提下顯著提升了推理速度。
(2)我們引入了一種一致性蒸餾機(jī)制,并在自回歸損失中結(jié)合混合標(biāo)簽監(jiān)督,以有效保留高質(zhì)量的動(dòng)作序列。
(3)我們發(fā)現(xiàn)Jacobi解碼存在低效迭代的瓶頸問題,進(jìn)一步提出了早期退出(early-exit)解碼策略,實(shí)現(xiàn)了4.1倍的推理加速與超過4.3倍的解碼頻率提升。
圖1:不同解碼方法加速效果對(duì)比
Method
圖2:CEED-VLA模型架構(gòu)示意圖
我們提出的框架首先通過預(yù)訓(xùn)練的VLA模型(例如LLaVA-VLA和OpenVLA)進(jìn)行JacobiDecoding生成訓(xùn)練JacobiTrajectory數(shù)據(jù)集。隨后,我們?cè)O(shè)計(jì)了一種高效的一致性蒸餾方式,并引入了一種新穎的混合標(biāo)簽監(jiān)督方法,在同時(shí)保證精度和提高速度的前提下訓(xùn)練學(xué)生模型。最后,我們提出了Early-exitDecoding技術(shù),以進(jìn)一步提升推理速度。模擬環(huán)境與現(xiàn)實(shí)世界中的實(shí)驗(yàn)表明,在幾乎不損失任務(wù)成功率的前提下,該方法顯著提升了模型的推理速度和靈巧任務(wù)的成功率。
ConsistencyTraining
對(duì)于目標(biāo)VLA模型,為了捕捉Jacobi軌跡中的內(nèi)在一致性以進(jìn)行一致性訓(xùn)練,我們首先通過在機(jī)器人數(shù)據(jù)集C上使用JacobiDecoding對(duì)模型進(jìn)行動(dòng)作預(yù)測(cè),來采集完整的Jacobi軌跡。
一致性訓(xùn)練包含兩個(gè)優(yōu)化目標(biāo):一致性損失(ConsistencyLoss):引導(dǎo)模型能夠在單次forward過程中預(yù)測(cè)多個(gè)正確的token,為了確保模型在軌跡中的任意一步都能生成與最終目標(biāo)一致的動(dòng)作,這里引入了KL散度作為一致性損失。簡(jiǎn)而言之,它要求模型在每一個(gè)中間步驟的預(yù)測(cè),和最終預(yù)測(cè)結(jié)果之間保持一致,從而提高模型收斂效率。
混合標(biāo)簽的自回歸監(jiān)督損失(Mixed-labelARSupervision):為了保留模型常規(guī)的自回歸生成能力,CEED-VLA混合使用教師模型的數(shù)據(jù)以及Ground-truth數(shù)據(jù)進(jìn)行監(jiān)督,以保證動(dòng)作精確性。最終的訓(xùn)練目標(biāo)是兩種損失的加權(quán)和。訓(xùn)練過程如下所示:
圖4一致性訓(xùn)練算法
Early-exitDecoding
圖5:四種解碼方式迭代流程
Jacobi解碼允許并行輸出動(dòng)作token,在一定程度上提高了推理速度,但嚴(yán)格的收斂條件影響解碼效率進(jìn)一步提升。為此我們提出Early-exitDecoding策略:模型通過提前退出的方式輸出中間預(yù)測(cè)結(jié)果,無需滿足Jacobiiteration的收斂條件。得益于manipulation任務(wù)獨(dú)特的結(jié)構(gòu),Early-exitDecoding顯著提升了推理速度,同時(shí)保持了成功率,使得模型能夠以更高頻率控制機(jī)器人,滿足實(shí)時(shí)任務(wù)需求。
仿真環(huán)境基準(zhǔn)實(shí)驗(yàn)(SimulationBenchmark)
圖6:仿真環(huán)境主要實(shí)驗(yàn)結(jié)果
在最具挑戰(zhàn)的長(zhǎng)程任務(wù)CALVINABC-D和LIBERO-Long基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明,CEED-VLA在幾乎不損失任務(wù)成功率的前提下實(shí)現(xiàn)了4倍以上的推理速度和執(zhí)行頻率。
真實(shí)世界實(shí)驗(yàn)(RealWorld)
圖9:真機(jī)實(shí)驗(yàn)部署設(shè)置
圖10:疊毛巾任務(wù)上的對(duì)比
上圖展示了LLaVA-VLA模型的真實(shí)表現(xiàn)。機(jī)械臂操作頻率較低,難以完成如疊毛巾等靈巧操作任務(wù),經(jīng)常出現(xiàn)抓取失敗或只抓到一邊的情況,導(dǎo)致任務(wù)失敗。下圖展示了CEED-VLA模型的實(shí)驗(yàn)效果。得益于推理頻率的提高,機(jī)械臂動(dòng)作更加順暢,成功完成了靈巧操作任務(wù)。
圖11:CEED-VLA在真實(shí)世界中的實(shí)驗(yàn)結(jié)果。
CEED-VLA顯著提升了推理速度和控制頻率,使模型能夠?qū)W習(xí)并執(zhí)行高頻動(dòng)作,因此相比基線在靈巧任務(wù)上的成功率大幅提升,超過70%。
神魔大戰(zhàn)遺留的十把魔兵,卓天凡能否現(xiàn)世重現(xiàn),保衛(wèi)六指大陸?
今日推薦:《百變武魂》作者:君上石冷。點(diǎn)擊文末超鏈接開始觀看吧~308、融合身體倒飛砸出,鮮血直接狂飆而出,一個(gè)眼珠子更是直接被卓天凡的拳頭砸的陷了進(jìn)去,整個(gè)大腦變的混沌一片||。這也怪狼王倒霉,要是對(duì)付別的人,這絕對(duì)是一個(gè)完美的戰(zhàn)斗計(jì)劃,而對(duì)上了卓天凡,尤其是對(duì)上了他的左臂,那里的是什么,那里的可是超圣器逆天,左 今日推薦:《百變武魂》作者:君上石冷|——。點(diǎn)擊文末超鏈接開始觀看吧~405、出山這一刻,南宮羽諾情愿自己只是一個(gè)小戶人家的平凡女子,但她不是,從她出生那一刻,就烙印上了六指大陸第一煉丹世家,南宮世家小公主的身份。五個(gè)老者忽然同時(shí)嘆了口氣,不過卻沒有多說些什么話,而是身形一蕩,忽然,在空氣中發(fā)出后面會(huì)介紹-_。《最強(qiáng)棄少》也不敵它,宅豬神作強(qiáng)勢(shì)來襲,高評(píng)分橫掃玄幻榜單!