機(jī)器之心報(bào)道
澤南、杜偉
打通機(jī)器人智能化的關(guān)鍵:眼+腦+手。
具身智能(EmbodiedIntelligence)是AI領(lǐng)域里熱度極高的賽道:給大模型以物理的軀體,讓它能夠感知真實(shí)世界,這套新范式似乎能讓機(jī)器人完成各種以前無法想象的復(fù)雜任務(wù)。
自大語言模型(LLM)技術(shù)爆發(fā)以來,以具身智能為目標(biāo)的明星機(jī)器人公司不斷涌現(xiàn),新聞?lì)^條一個(gè)接著一個(gè)。不過直到最近還有機(jī)器人領(lǐng)域?qū)<冶硎?,我們似乎仍沒有看到「機(jī)器人領(lǐng)域的ChatGPT」出現(xiàn)。
具身智能究竟應(yīng)該會(huì)是怎樣的形式,我們還沒有定論。不過最近的世界人工智能大會(huì)WAIC2025,已經(jīng)讓這個(gè)概念逐漸清晰了起來。
形態(tài)、任務(wù)模式不受限
真正通用的AI
今年的WAIC大會(huì)熱鬧非常,展區(qū)人頭攢動(dòng),最能吸引人們目光的當(dāng)然是一臺(tái)臺(tái)機(jī)器人。值得一提的是,有個(gè)展位上似乎集合了最近機(jī)器人技術(shù)落地的大多數(shù)形式。
我們知道一直以來,機(jī)器人的鐵手都是難以處理柔軟物體的。但在這個(gè)展臺(tái)的模擬居家場景中,機(jī)器人正在展示疊衣服。
它從判斷到做出決策的過程絲滑流暢。在設(shè)置好工作范圍后,機(jī)器人就可以完成一長串連續(xù)復(fù)雜的動(dòng)作,把柔軟衣服整齊疊好,還會(huì)像人類一樣鋪平幾下。
機(jī)器人疊衣服,看起來比人還仔細(xì)。
有兩個(gè)五指靈巧手的機(jī)器人在表演海量真實(shí)生活物品自動(dòng)識別+操作能力。它能閱讀人類手寫的標(biāo)簽,識別出「小黃人是玩具」、「卡皮巴拉是動(dòng)物」這樣的概念,能準(zhǔn)確抓取起物體再正確地進(jìn)行分門別類。
雙臂機(jī)器人在按照手寫標(biāo)簽進(jìn)行分類,視頻內(nèi)容有加速。
人類使用自然語言列出的各種需求,機(jī)器人都可以弄懂并執(zhí)行。面對這個(gè)機(jī)器人,你不需要像大模型Prompt那樣給出絕對清晰的指令,它就可以完成蔬菜、水果的分類收納,或是區(qū)分食肉動(dòng)物和食草動(dòng)物。
如果你再寫一個(gè)新標(biāo)簽,或是用不同的顏色做為分類標(biāo)準(zhǔn),機(jī)器人也可以把對應(yīng)類型的物體放置到對應(yīng)的標(biāo)記上。它也可以也自行進(jìn)行加減乘除的計(jì)算。
這是一個(gè)工業(yè)機(jī)器人,面對一盒雜亂的物品,它可以自主決策進(jìn)行工作,前所未見的也能識別并一個(gè)個(gè)分揀出來,而且速度極快
任意物體,機(jī)器人都可以快速抓取。
100%透明的物體也可以被機(jī)器人識別出來并準(zhǔn)確拿起。
這里是一個(gè)模擬的商業(yè)場景,你在服務(wù)臺(tái)的iPad上下單,人形機(jī)器人就會(huì)自主規(guī)劃路線,快速從貨架取到對應(yīng)的商品遞過來。
人形機(jī)器人便利店。
在現(xiàn)場,還有很多其他種類的機(jī)器人在有條不紊地工作著,我們可以看到,機(jī)器人已經(jīng)可以做到接近人類的理解和推理能力,可以認(rèn)識和操作海量的真實(shí)物體,可以抓取透明物體,也可以完成復(fù)雜的柔性任務(wù),而且速度很快,通用性強(qiáng)
可見,不論是面對工業(yè)、商業(yè)場景,還是未來貼近于人的家用環(huán)境,具身智能都已經(jīng)做好了準(zhǔn)備。
這些不同形態(tài)的機(jī)器人背后的技術(shù)全都來自同一家廠商——國內(nèi)科技公司梅卡曼德(Mech-Mind),他們自研的通用機(jī)器人「眼腦手」全棧技術(shù)產(chǎn)品在WAIC上首次得到了全景展示。
「眼腦手」合一
才叫具身智能
WAIC上展示的一套套機(jī)器人應(yīng)用,搭載了梅卡曼德的通用機(jī)器人自研技術(shù)棧:Mech-GPT機(jī)器人多模態(tài)大模型、Mech-Eye高精度3D相機(jī)與Mech-Hand仿生五指靈巧手。
梅卡曼德機(jī)器人在WAIC2025大會(huì)上。
他們展示的機(jī)器人都有機(jī)器人的「眼睛」有高精度3D視覺攝像頭,信息傳輸給多模態(tài)大模型進(jìn)行處理,整個(gè)系統(tǒng)就可以像人一樣理解現(xiàn)實(shí)世界,自動(dòng)進(jìn)行任務(wù)規(guī)劃,配合高靈活度的五指靈巧手,就可以實(shí)現(xiàn)多種操作。
梅卡曼德的靈巧手Mech-Hand憑借靈活緊湊的硬件設(shè)計(jì)和先進(jìn)的算法,能夠靈活操作各類物體。
梅卡曼德所做的,相當(dāng)于把具身智能的核心技術(shù)和關(guān)鍵能力做好,至于你想要以怎樣的形式落地,根據(jù)實(shí)際使用情況,可以搭配人形等多種形態(tài)的機(jī)器人,方便靈活且實(shí)用。
在現(xiàn)場,我們還能看到機(jī)器人背后的服務(wù)器?;诖竽P蚐calingLaws「算力投入越多,智力越高」的定律,今天的機(jī)器人已經(jīng)展現(xiàn)出了極高的靈活性,具備了和人類協(xié)同工作的能力。
Mech-Eye3D相機(jī)可以生成結(jié)構(gòu)完整、細(xì)節(jié)清晰的3D點(diǎn)云數(shù)據(jù)。
梅卡曼德的工程師表示,機(jī)器人現(xiàn)在也可以理解一些人類之間對話背后的意義,例如你對它說「我餓了」,機(jī)器人就會(huì)把桌上的零食拿給你。看起來,它們已經(jīng)具備了一些人類的基本常識。
與大家經(jīng)常接觸到的大模型應(yīng)用不同,機(jī)器人需要面對真實(shí)世界這個(gè)最復(fù)雜的環(huán)境,因此發(fā)展出了多種不同的形態(tài):有些機(jī)器人更擅長運(yùn)動(dòng),而有些更擅長物體操控;有些機(jī)器人用于工業(yè)用途,有些則用于家務(wù)。在未來的制造和物流等行業(yè),人形機(jī)器人很可能不是最主流的形態(tài)。
但這并不意味著機(jī)器人的核心技術(shù),要為各種不同任務(wù)進(jìn)行完全定制化。例如從工業(yè)場景來看,不論是裝配、切割還是焊接,機(jī)器人所做的事情都存在共性:識別物體的種類,判斷狀態(tài),進(jìn)行精確定位,然后引導(dǎo)機(jī)器人完成相應(yīng)的動(dòng)作。
對于具身智能來說,跨實(shí)體化不僅僅是一項(xiàng)研究上的創(chuàng)新,也是通用大腦的一項(xiàng)基本特性。
為了構(gòu)建通用化的具身智能,梅卡曼德專注于構(gòu)建基礎(chǔ)能力,其提供的技術(shù)能力和各種不同形態(tài)機(jī)器人(單臂、雙臂、人形等)搭配,具有自我感知、規(guī)劃和決策能力,可執(zhí)行多種類型的任務(wù),覆蓋大量實(shí)際應(yīng)用場景。
經(jīng)過實(shí)踐,這套標(biāo)準(zhǔn)化的AI大腦+3D視覺+靈巧手產(chǎn)品組件,可以讓機(jī)器人具備更高階智能,具備類人的理解和推理能力,可快速理解自然語言指令,高效、精細(xì)地執(zhí)行復(fù)雜任務(wù)。豐富數(shù)據(jù)和AI算法,可以讓機(jī)器人認(rèn)識更多常見物體。
自2016年成立起,梅卡曼德一直堅(jiān)持產(chǎn)品化的道路,不斷升級迭代技術(shù),高精度3D相機(jī)、AI算法軟件等產(chǎn)品組件均高度標(biāo)準(zhǔn)化且開放,提供通用標(biāo)準(zhǔn)接口,可以適配幾十個(gè)品牌、上千個(gè)不同的機(jī)器人型號。對于其客戶來說,可以通過一些主流的方式直接將產(chǎn)品與工業(yè)現(xiàn)場的系統(tǒng)快速打通配合。
梅卡曼德的工程師表示,他們目標(biāo)就是讓機(jī)器人能「真的把事情辦好」。
具身智能的未來
還有更多應(yīng)用場景
最近,Grok-4、KimiK2、Step-3等大模型在AI領(lǐng)域掀起了又一輪技術(shù)進(jìn)步潮流,人們對于通用化的人工智能充滿了信心。在同樣前沿且熱門的機(jī)器人領(lǐng)域,人們也已迫不及待。就在7月,美團(tuán)和京東接連出手,投資了多家具身智能公司,科技巨頭正在零售、物流、服務(wù)等領(lǐng)域持續(xù)探索新技術(shù)落地。
從更宏觀的角度看,面對從業(yè)者人數(shù)動(dòng)輒上億的制造業(yè)、服務(wù)業(yè)等行業(yè),在全球范圍內(nèi),目前至少還是每幾百個(gè)人能對應(yīng)一臺(tái)機(jī)器人,智能化程度不足是最主要的瓶頸。
但我們還不知道哪家公司提出的技術(shù)會(huì)成為「機(jī)器人領(lǐng)域的ChatGPT」——一方面,基于大模型的新一代人工智能技術(shù)讓通用化任務(wù)的機(jī)器人有了方向;另一方面,從技術(shù)展示到大規(guī)模落地,仍存在很多挑戰(zhàn)。與自動(dòng)駕駛類似,機(jī)器人行業(yè)的發(fā)展需要大量產(chǎn)業(yè)鏈條的重塑,從零開始構(gòu)建客戶場景。
正如梅卡曼德CEO邵天蘭所言,這個(gè)方向不僅門檻高,難度也大。但一路走來,這家公司已經(jīng)率先實(shí)現(xiàn)了跨行業(yè)、多場景、全球化的大規(guī)模落地。在不斷變化大趨勢下,梅卡曼德持續(xù)在AI等前沿技術(shù)方向進(jìn)展突破,專注于通用機(jī)器人「眼腦手」三項(xiàng)基礎(chǔ)能力,希望通過標(biāo)準(zhǔn)化產(chǎn)品適配廣泛的硬件形態(tài),推動(dòng)機(jī)器人在各行業(yè)的落地。
成立八年來,梅卡曼德「AI大腦+3D視覺」賦能下的機(jī)器人產(chǎn)品已被應(yīng)用至物流、汽車、家電等多個(gè)應(yīng)用場景,規(guī)模化應(yīng)用的典型場景包括工件上下料、紙箱/周轉(zhuǎn)箱/膜包拆碼垛、高精度定位/裝配、缺陷檢測、高精度測量、焊接等。
據(jù)介紹,目前梅卡曼德「AI智慧大腦+3D視覺之眼」的解決方案在全球的落地?cái)?shù)量已經(jīng)超過15000臺(tái),過去五年在國內(nèi)細(xì)分領(lǐng)域市場的占有率一直位列第一,預(yù)計(jì)在今年一年內(nèi)的落地?cái)?shù)量會(huì)突破1萬
事實(shí)上,梅卡曼德是全球首個(gè)在制造和物流行業(yè)實(shí)現(xiàn)大規(guī)模制造、大規(guī)模智能機(jī)器人應(yīng)用的公司,是全球「AI+機(jī)器人」領(lǐng)域規(guī)模最大的獨(dú)角獸企業(yè)。
通過一系列自主研發(fā)的AI核心技術(shù),梅卡曼德希望能夠幫助機(jī)器人實(shí)現(xiàn)更好的理解、推理和學(xué)習(xí)能力,和更好地處理復(fù)雜任務(wù)、操作海量物體等關(guān)鍵能力,更具通用性和實(shí)用性,推動(dòng)機(jī)器人從工業(yè)場景向更廣泛的應(yīng)用領(lǐng)域邁進(jìn)。面對具身智能的未來發(fā)展大方向,家用和服務(wù)領(lǐng)域拓展也在進(jìn)行中。
也許很快,具身智能加持的機(jī)器人就會(huì)成為人人可用的智能「幫手」。
文中視頻鏈接:https://mp.weixin.qq.com/s/2yZ_gpcypvN69kZ-pooaig