IT之家7月22日消息,SeedGR-3是字節(jié)跳動Seed團隊提出的全新Vision-Language-ActionModel(VLA)模型,它具備泛化到新物體和新環(huán)境的能力,能理解包含抽象概念的語言指令,還能夠精細地操作柔性物體。
據(jù)Seed介紹,與此前需要大量機器人軌跡訓(xùn)練的VLA模型不同,GR-3通過少量的人類數(shù)據(jù)即可實現(xiàn)高效微調(diào),從而快速且低成本地遷移至新任務(wù),以及認識新物體。
此外,得益于改進的模型結(jié)構(gòu),GR-3能有效處理長程任務(wù)并能進行高靈巧度的操作,包括雙手協(xié)同操作、柔性物體操作,以及融合底盤移動的全身操作等。
具體而言,這些能力是通過一種多樣的模型訓(xùn)練方法實現(xiàn)的:除遙操作機器人收集的高質(zhì)量真機數(shù)據(jù)外,團隊還經(jīng)過用戶授權(quán),征集了基于VR設(shè)備的人類軌跡數(shù)據(jù),以及公開、可用的大規(guī)模視覺語言數(shù)據(jù)進行聯(lián)合訓(xùn)練——多樣性數(shù)據(jù)的融合是GR-3區(qū)別于現(xiàn)有VLA模型的亮點之一。
同時,字節(jié)跳動Seed團隊還開發(fā)了一款具備高靈活性、高可靠性的通用雙臂移動機器人ByteMini,相當(dāng)于是專為GR-3這顆“大腦”打造的“靈活軀體”。
ByteMini具備22個全身自由度以及獨特的手腕球角設(shè)計,使它能夠像人類一樣靈活,在狹小空間中完成各種精細操作,攜帶GR-3模型這顆“機器人大腦”,可高效在真實環(huán)境中處理復(fù)雜任務(wù)。
GR-3在各類任務(wù)中展現(xiàn)的特點包括:
“心靈”:GR-3在超長序列(子任務(wù)數(shù)≥10)的餐桌整理任務(wù)中,可高魯棒性、高成功率地完成任務(wù),并在過程中嚴(yán)格跟隨人類發(fā)出的分步指令;
“手巧”:GR-3在復(fù)雜靈巧的掛衣服任務(wù)中,能夠控制雙臂協(xié)同操作可形變的柔性物體,甚至可以魯棒地識別并整理不同擺放方式的衣物;
泛化好:GR-3在各類物體的抓取放置任務(wù)中,可以泛化到抓取未見過的物體,同時可理解包含復(fù)雜抽象概念的指令。
經(jīng)過團隊上千次系統(tǒng)性實驗測試,GR-3表現(xiàn)超過業(yè)界此前可測試具體性能的VLA頭部模型π0。未來,團隊希望GR-3可以成為邁向通用機器人“大腦”的重要一步。
在基礎(chǔ)場景和新環(huán)境中,加入公開可用的圖文數(shù)據(jù)進行訓(xùn)練不會帶來能力損失;在未見過的復(fù)雜指令和新物品任務(wù)中,這部分數(shù)據(jù)分別能帶來42.8%和33.4%的成功率提升。
為持續(xù)提升GR-3應(yīng)對未見過物體的能力,團隊利用VR設(shè)備采集了人類操作物體的數(shù)據(jù),結(jié)果發(fā)現(xiàn):只需要通過VR設(shè)備對相應(yīng)物品采集10條軌跡數(shù)據(jù),就可以讓GR-3操作這些物體的成功率從不到60%提升到超過80%。
團隊還同時測試了GR-3跟隨分步指令的能力,結(jié)果發(fā)現(xiàn):GR-3在跟隨語言指令上,領(lǐng)先基準(zhǔn)模型,面對多件同類物品(如多個杯子),GR-3能按指令將他們“全放進垃圾桶”,若指令無效(如餐桌上沒有藍色的碗,指令為“把藍色碗放進籃子”),GR-3能準(zhǔn)確判斷并保持不動,而基準(zhǔn)模型則會隨機拿取物品。
此外,GR-3還能泛化到機器人數(shù)據(jù)中未包含的衣服。例如,當(dāng)機器人數(shù)據(jù)中的衣服均為長袖款式時,GR-3對短袖衣物同樣能有效處理。
IT之家附官方地址:
ArXiv:http://arxiv.org/abs/2507.15493
項目主頁:https://seed.bytedance.com/GR3
英雄聯(lián)盟:離家出走、母親遇害,你所不知道的doublelift大師兄...