智通財經(jīng)APP獲悉,國泰海通發(fā)布研報稱,7月22日,字節(jié)跳動Seed團(tuán)隊發(fā)布通用機(jī)器人模型GR-3,GR-3模型與GR-2模型(2024.10推出)相比,在面對新環(huán)境和新物體時操作性能卓越,復(fù)雜指令理解精準(zhǔn)度高,具備處理泛化任務(wù)的能力。GR-3在泛化性、復(fù)雜任務(wù)的成功率上比業(yè)內(nèi)頭部具身大模型π0顯著提升。從字節(jié)跳動公開進(jìn)展看,其具身智能持續(xù)迭代發(fā)展,暫無明確商業(yè)化規(guī)劃。隨著技術(shù)進(jìn)步和產(chǎn)業(yè)鏈成熟,字節(jié)具備進(jìn)行軟硬件產(chǎn)品化的可能,且有望在ToC場景積累領(lǐng)先優(yōu)勢,建議關(guān)注產(chǎn)業(yè)鏈相關(guān)標(biāo)的。
國泰海通主要觀點如下:
字節(jié)推出GR-3模型,復(fù)雜長任務(wù)執(zhí)行能力較好,泛化性顯著提升
7月22日,字節(jié)跳動Seed團(tuán)隊發(fā)布通用機(jī)器人模型GR-3,該模型為VLA架構(gòu),具備泛化到新物體和新環(huán)境的能力,能理解包含抽象概念的語言指令,還能夠精細(xì)地操作柔性物體。
GR-3模型與GR-2模型(2024.10推出)相比,在面對新環(huán)境和新物體時操作性能卓越,復(fù)雜指令理解精準(zhǔn)度高,具備處理泛化任務(wù)的能力,主要源于:1)模型架構(gòu)上:GR-3采用MoT+DiT的網(wǎng)絡(luò)結(jié)構(gòu),將“視覺-語言模塊”和“動作生成模塊”集成為40億參數(shù)的端到端模型,生成動作后通過RMSNorm增強(qiáng)動態(tài)指令跟隨能力,使機(jī)器人反應(yīng)更敏捷、高效;2)訓(xùn)練數(shù)據(jù)上:GR-3采用三合一數(shù)據(jù)訓(xùn)練法,遙操作數(shù)據(jù)(高質(zhì)量)、人類VR軌跡數(shù)據(jù)(低成本,可達(dá)450條數(shù)據(jù)/小時),公開圖文數(shù)據(jù)(理解抽象概念、認(rèn)識新物體以提升泛化能力)。
硬件跟隨軟件協(xié)同創(chuàng)新,同步推出通用雙臂移動機(jī)器人ByteMini
此前字節(jié)Seed團(tuán)隊推出的GR-2模型的硬件本體是一臺單臂機(jī)器人。為充分發(fā)揮GR-3的潛力,字節(jié)跳動同步推出了通用雙臂移動機(jī)器人ByteMini,專為GR-3模型設(shè)計的“軀體”具備多項創(chuàng)新特性:1)22個全身自由度與獨特手腕球角設(shè)計,實現(xiàn)接近人類手腕的靈活轉(zhuǎn)動能力;2)多攝像頭協(xié)同系統(tǒng)(2手腕攝像頭+頭部全局視角),確保操作過程中的“眼觀六路”;3)全身運動控制(WBC)系統(tǒng)實現(xiàn)平滑軌跡生成,在抓取紙杯等場景中自動調(diào)整力度,避免傳統(tǒng)機(jī)器人的剛性碰撞問題。
GR-3在泛化性、復(fù)雜任務(wù)的成功率上比業(yè)內(nèi)頭部具身大模型π0顯著提升
Seed團(tuán)隊在基礎(chǔ)環(huán)境、新環(huán)境、復(fù)雜指令、新物品四類場景中測試對比了GR-3和π0,GR-3的任務(wù)執(zhí)行成功了顯著提升,經(jīng)過公開圖文數(shù)據(jù)中積累的“見識”的GR-3在新物品操作的成功率上較π0高出17.8%。特別的,GR-3僅需10條人類軌跡數(shù)據(jù)即可將新物體操作成功率從60%提升至80%以上。GR-3的高泛化性與復(fù)雜任務(wù)執(zhí)行能力可以助力機(jī)器人場景落地探索。
風(fēng)險提示
技術(shù)進(jìn)步及產(chǎn)業(yè)化進(jìn)展不及預(yù)期,行業(yè)競爭加劇。
力薦5本已完結(jié)家族修仙類小說,家族子弟多才俊,得道成仙未可知
公認(rèn)十大完結(jié)巔峰修仙小說
推薦5本修仙類小說:帶領(lǐng)族人在危機(jī)重重的修真界,悄然崛起!