本文一作彭道杰,香港科技大學(xué)廣州在讀博士生;共同一作曹嘉航,北京人形機器人創(chuàng)新中心實習(xí)生;共同一作張強香港科技大學(xué)廣州在讀博士生,北京人形機器人創(chuàng)新中心學(xué)術(shù)委員會主任;通訊導(dǎo)師馬駿,香港科技大學(xué)廣州&香港科技大學(xué)助理教授。
在復(fù)雜的開放環(huán)境中,讓足式機器人像人類一樣自主完成「先跑到椅子旁,再快速接近行人」這類長程多目標(biāo)任務(wù),一直是robotics領(lǐng)域的棘手難題。傳統(tǒng)方法要么局限于固定目標(biāo)類別,要么難以應(yīng)對運動中的視覺抖動、目標(biāo)丟失等實時挑戰(zhàn),導(dǎo)致機器人在真實場景中常?!该月贰够颉刚J(rèn)錯對象」。
香港科技大學(xué)廣州聯(lián)合北京人形創(chuàng)新中心重磅推出的LOVON(LeggedOpen-VocabularyObjectNavigator)框架,為這一難題帶來了創(chuàng)新性的解決方案。它首次將大語言模型(LLMs)的任務(wù)規(guī)劃能力、開放詞匯視覺檢測的泛化能力,以及精準(zhǔn)的語言-運動映射模型融合在一起,讓足式機器人在動態(tài)、非結(jié)構(gòu)化環(huán)境中也能高效完成長程目標(biāo)導(dǎo)航,實現(xiàn)了足式機器人在開放世界中對動態(tài)目標(biāo)的長視野精準(zhǔn)追蹤,兼容UnitreeGo2、B2、H1-2等主流平臺,用「即插即用」的特性打破了傳統(tǒng)機器人導(dǎo)航的場景限制。
論文:《LOVON:LeggedOpen-VocabularyObjectNavigator》LOVON論文地址:https://arxiv.org/pdf/2507.06747項目地址:https://daojiepeng.github.io/LOVON/代碼地址:https://github.com/DaojiePENG/LOVON視頻地址:https://www.bilibili.com/video/BV1xh3ezJEJn/
攻克開放世界導(dǎo)航難題,LOVON強勢登場
開放世界環(huán)境中的目標(biāo)導(dǎo)航,對于機器人系統(tǒng)而言是一項艱巨且普遍存在的挑戰(zhàn)。尤其是執(zhí)行長視野任務(wù)時,不僅需要機器人具備開放世界物體檢測能力,還需進行高級任務(wù)規(guī)劃。傳統(tǒng)方法往往難以有效整合這些關(guān)鍵組件,這極大地限制了它們應(yīng)對復(fù)雜、長距離導(dǎo)航任務(wù)的能力。
LOVON框架應(yīng)運而生,它巧妙地將大型語言模型用于分層任務(wù)規(guī)劃,并與開放詞匯視覺檢測模型深度融合,專為在動態(tài)、非結(jié)構(gòu)化環(huán)境中實現(xiàn)高效的長距離目標(biāo)導(dǎo)航而打造。面對真實世界中諸如視覺抖動、復(fù)雜環(huán)境以及目標(biāo)臨時丟失等棘手問題,LOVON設(shè)計了專門的解決方案,例如用于視覺穩(wěn)定的拉普拉斯方差濾波技術(shù)。同時,為機器人開發(fā)了一套功能性執(zhí)行邏輯,確保LOVON在自主導(dǎo)航、任務(wù)適應(yīng)以及穩(wěn)健完成任務(wù)等方面具備強大的能力。
三大核心模塊協(xié)同,構(gòu)建智能導(dǎo)航閉環(huán)
LOVON創(chuàng)新性地整合了三大核心模塊,打通了「語言-視覺-運動」的閉環(huán)。
LLM任務(wù)規(guī)劃器:如同為機器人賦予了人類般的思考能力,能夠?qū)㈤L視野任務(wù)進行拆解。比如,它可以把「先跑向椅子,再快速靠近行人」這樣的復(fù)雜指令,細(xì)致地分解為一系列連續(xù)的子任務(wù),并根據(jù)實際情況動態(tài)調(diào)整執(zhí)行順序,讓機器人能夠有條不紊地完成復(fù)雜任務(wù)。開放詞匯視覺檢測:突破了傳統(tǒng)預(yù)定義類別的限制,使機器人能夠識別從常見的「背包」「盆栽」到「汽車」「寵物」等各類豐富多樣的目標(biāo)。這一特性讓機器人能夠輕松適配日常生活中的各種場景,無論是在室內(nèi)環(huán)境中尋找特定物品,還是在戶外環(huán)境中識別動態(tài)目標(biāo),都能應(yīng)對自如。語言-運動模型(L2MM):該模塊能夠?qū)⑽淖种噶钆c視覺反饋直接轉(zhuǎn)化為精確的運動向量,從而精準(zhǔn)地控制機器人的速度和方向。這意味著機器人可以根據(jù)接收到的指令,迅速做出反應(yīng),實現(xiàn)「說走就走,說停就?!沟木珳?zhǔn)運動控制,大大提高了任務(wù)執(zhí)行的效率和準(zhǔn)確性。
抗干擾視覺處理,解決畫面抖動難題
足式機器人在運動過程中,機身的抖動常常導(dǎo)致獲取的視覺畫面模糊不清,這使得目標(biāo)檢測頻繁失效,成為影響機器人導(dǎo)航性能的一大障礙。為了解決這一「看不清楚」的老大難問題,LOVON提出了基于拉普拉斯方差濾波技術(shù)。通過對圖像清晰度特征進行深入分析,該技術(shù)能夠自動識別并過濾掉模糊的圖像幀,同時用最近的清晰幀進行替換。再配合滑動平均濾波,有效地將機器人有效檢測幀的比例提升了25%。
這一技術(shù)的應(yīng)用,使得機器人在奔跑、上下樓梯等運動狀態(tài)下,依然能夠穩(wěn)定地鎖定目標(biāo),為后續(xù)的導(dǎo)航?jīng)Q策提供可靠的視覺信息。
自適應(yīng)執(zhí)行邏輯,賦予機器人「隨機應(yīng)變」能力
在復(fù)雜多變的真實世界中,機器人可能會面臨各種突發(fā)情況,如目標(biāo)突然丟失、指令發(fā)生更新或者受到外力干擾等。LOVON的自適應(yīng)執(zhí)行邏輯為機器人應(yīng)對這些情況提供了有力支持。當(dāng)目標(biāo)丟失時,機器人會自動切換至「搜索模式」,通過左右旋轉(zhuǎn)掃描周圍環(huán)境,迅速重新定位目標(biāo);當(dāng)接收到新的指令時,能夠無縫銜接并執(zhí)行新任務(wù),確保任務(wù)的連貫性;即便在受到外力碰撞等干擾時,也能快速重新規(guī)劃路徑,繼續(xù)朝著目標(biāo)前進。
這種「隨機應(yīng)變」的能力,讓機器人在真實世界的復(fù)雜場景中能夠保持穩(wěn)定的任務(wù)執(zhí)行能力,極大地提升了其適應(yīng)性和可靠性。
從仿真到真實世界:多項指標(biāo)刷新紀(jì)錄
經(jīng)過嚴(yán)格測試,LOVON在仿真與真實環(huán)境中均展現(xiàn)出超越傳統(tǒng)方法的性能:
GymUnreal仿真環(huán)境:在停車場、城市街道、雪地村莊等多種復(fù)雜仿真場景中,LOVON展現(xiàn)出了令人矚目的性能。其成功率(SR)高達1.00,大幅超越了傳統(tǒng)方法,例如EVT的0.94。而且,LOVON在訓(xùn)練效率上也具有顯著優(yōu)勢,僅需1.5小時即可完成訓(xùn)練,相比同類最優(yōu)模型TrackVLA的360小時,效率提升了驚人的240倍。這表明LOVON不僅在任務(wù)執(zhí)行的準(zhǔn)確性上表現(xiàn)出色,還能在更短的時間內(nèi)完成模型訓(xùn)練,為實際應(yīng)用節(jié)省了大量的時間和資源。
真實世界:在UnitreeGo2、B2、H1-2等不同足式機器人上,LOVON實現(xiàn)了四大突破:
開放世界適配:它能夠輕松識別從大型汽車到小型背包等各類大小不一、形態(tài)各異的目標(biāo),在完全陌生的環(huán)境中也能快速適應(yīng)并執(zhí)行任務(wù),體現(xiàn)出了卓越的開放世界適配能力;多目標(biāo)長程追蹤:在多目標(biāo)長視野追蹤任務(wù)中,LOVON能夠按照指令依次完成「找椅子→找行人→找背包」等復(fù)雜任務(wù),整個過程流暢無中斷,展現(xiàn)出了出色的任務(wù)規(guī)劃和執(zhí)行能力;動態(tài)環(huán)境魯棒性:在動態(tài)跟蹤場景中,無論是在平坦道路上,還是在螺旋樓梯、雜草叢等復(fù)雜地形中,LOVON都能穩(wěn)定地跟隨移動目標(biāo),例如在遛狗場景中準(zhǔn)確跟隨移動的人和寵物;抗干擾能力:即便目標(biāo)位置發(fā)生移動或者機器人自身受到碰撞等干擾,LOVON依然能夠快速重新鎖定目標(biāo)并繼續(xù)完成任務(wù),彰顯了其強大的抗干擾能力。
更為重要的是,LOVON具備出色的「即插即用」特性,無需進行復(fù)雜的定制化改造,即可輕松部署于UnitreeGo2、B2、H1-2等多種主流足式機器人平臺,為家庭服務(wù)、工業(yè)巡檢、野外科研等多個領(lǐng)域的實際應(yīng)用提供了堅實的技術(shù)支撐。
推動足式機器人應(yīng)用變革,開啟智能服務(wù)新篇章
LOVON框架的出現(xiàn),猶如為足式機器人導(dǎo)航領(lǐng)域注入了一股強大的創(chuàng)新力量。它不僅填補了足式機器人開放詞匯長視野導(dǎo)航的技術(shù)空白,更通過「通用框架+輕量化部署」的創(chuàng)新設(shè)計理念,為先進機器人技術(shù)從實驗室走向廣泛實際應(yīng)用搭建了一座堅實的橋梁。
隨著LOVON的不斷推廣和應(yīng)用,我們有理由相信,足式機器人將在更多領(lǐng)域發(fā)揮重要作用,為人們的生活和工作帶來更多便利和創(chuàng)新。無論是在智能家居環(huán)境中協(xié)助人們完成日常任務(wù),還是在工業(yè)生產(chǎn)中實現(xiàn)高效的巡檢和操作,亦或是在野外科研探索中提供可靠的支持,LOVON都有望成為推動足式機器人應(yīng)用變革的關(guān)鍵技術(shù),開啟智能服務(wù)的嶄新篇章。
想了解更多關(guān)于LOVON的詳細(xì)信息,可訪問LOVON項目主頁:https://daojiepeng.github.io/LOVON/,一同探索足式機器人導(dǎo)航的未來新趨勢。
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。