符萊
新智元報(bào)道
編輯部
【新智元導(dǎo)讀】WAIC大會(huì)上,這個(gè)機(jī)器人憑驚艷實(shí)力引起了層層圍觀!疊衣服、分揀物品、聽指令取貨,他們研發(fā)的Mech-GPT多模態(tài)大模型和「眼腦手」系統(tǒng),讓機(jī)器人的高難度操作性能暴增。現(xiàn)在,這家公司已經(jīng)成為市占率連續(xù)五年的行業(yè)冠軍了。
最近,馬斯克的「擎天柱賣爆米花」再次讓具身智能進(jìn)入大眾視野。
特斯拉主題餐廳最近試營業(yè),Optimus在餐廳上崗,裝爆米花的動(dòng)作嫻熟流暢,引得大批人類圍觀——
現(xiàn)在的具身智能,已經(jīng)進(jìn)化成這樣了嗎!
注意看他的眼睛和手,尤其是手中的盒子沒有被捏扁變形,「眼睛」還會(huì)隨著動(dòng)作向你看來。
這些擬人的、連貫的動(dòng)作對(duì)于機(jī)器人「大腦」是很大的挑戰(zhàn)。
而在世界人工智能WAIC大會(huì)上,我們終于見到了又實(shí)用、又通用、速度又快的具身機(jī)器人!
而且,不僅有人形,還有單臂、雙臂等各式各樣的形態(tài)。
這些機(jī)器人都來自同一個(gè)展臺(tái)——梅卡曼德機(jī)器人。
在梅卡曼德自研的Mech-GPT多模態(tài)大模型加持下,不管是何種樣態(tài)的機(jī)器人,都?jí)蚋咝У貓?zhí)行各種精細(xì)的動(dòng)作和高難度的復(fù)雜任務(wù)。
對(duì)于前者,下面這個(gè)機(jī)器人輕松地?cái)[出「承讓」和「ok」的手勢。
對(duì)于后者,那場景可就多了:
比如,擺在這個(gè)雙臂機(jī)器人面前的,便是典型的柔性物體——一件衣服。
想要把它疊好的難點(diǎn)在于,這一個(gè)長序列任務(wù),需要機(jī)器人連續(xù)不斷地完成一系列指令。
而且在動(dòng)作做下去后,柔性物體會(huì)產(chǎn)生很難預(yù)測的結(jié)果,這就對(duì)機(jī)器人隨機(jī)應(yīng)變的能力提出了極高的要求。
不過,雙臂機(jī)器人最終十分順利地完成了這個(gè)長序列復(fù)雜柔性疊衣服任務(wù)。
4倍速
更進(jìn)一步的,機(jī)器人還能自主分揀海量的隨機(jī)真實(shí)物體,具備對(duì)各種各樣真實(shí)貨品泛化操作的能力。
可以看到,下面這個(gè)雙臂機(jī)器人,它的面前現(xiàn)在準(zhǔn)備了9個(gè)分類框和幾十種物體,如此復(fù)雜的貨品,它都能做到絲滑地操作和分類。
更神奇的是,如果我們把標(biāo)簽換掉,它甚至還能根據(jù)情況隨機(jī)應(yīng)變。
在這個(gè)過程中,它既展現(xiàn)出了廣泛物品的識(shí)別能力,也展現(xiàn)出了對(duì)廣泛物品的操作能力,以及對(duì)文字的識(shí)別和常識(shí)分類的能力。
有趣的是,這個(gè)過程中它不僅在完成收集物體的任務(wù),同時(shí)也在為自己收集大量數(shù)據(jù),讓自己的能力不斷提升。
而且在現(xiàn)場,這家公司絲毫不怕讓觀眾親身體驗(yàn)。展位上早已擺滿琳瑯滿目的小物件,信心十足地等待現(xiàn)場觀眾的測試。
現(xiàn)場的人們可以隨意用自然語言發(fā)出頗有難度的指令,比如讓下面這個(gè)單臂機(jī)器人「把物品放到對(duì)應(yīng)的紙上」。
在聽到自然語言的命令后,機(jī)器人搭載的百億參數(shù)大模型就會(huì)綜合語言輸入、視覺輸入,準(zhǔn)確認(rèn)識(shí)到自己該執(zhí)行什么任務(wù)。
另外,它還可以從貨架上準(zhǔn)確無誤地取貨。
觀眾在服務(wù)臺(tái)ipad上下單選擇相應(yīng)飲料,機(jī)器人收到訂單后,就會(huì)行駛至貨架處,取回對(duì)應(yīng)飲料,回到服務(wù)臺(tái)遞給觀眾,贏得滿堂喝彩。
2倍速
在這場備受矚目的世界人工智能大會(huì)上,為何這家機(jī)器人公司能有如此充足的底氣,大膽展示自家產(chǎn)品?
自然是因?yàn)?,他們家的機(jī)器人,性能足夠硬核。
具身智能,從哪里突破?
從上面這些驚人的demo可以看出,具身智能應(yīng)用需要具有極高的豐富性和實(shí)用性。
比如,在機(jī)器人的速度、節(jié)拍、任務(wù)泛化性和物體泛化性上,都需要有極其優(yōu)異的表現(xiàn),才能絲滑地完成各種多樣化的任務(wù)。
而梅卡曼德的機(jī)器人之所以能在這么多項(xiàng)指標(biāo)上都表現(xiàn)亮眼,正是因?yàn)樗摹秆勰X手」充分做到了一體化。
手:Mech-Hand五指靈巧手
首先,就是Mech-Hand五指靈巧手。
它的設(shè)計(jì)緊湊,靈活度高,穩(wěn)定性好。
再加上可以搭配泛化的AI抓取算法,就可以毫不費(fèi)力地精細(xì)抓取各類物體了,比如抓一個(gè)燈泡、一個(gè)雞蛋,或者敲鍵盤。
這些動(dòng)作中包括了「捏、拿、摸、點(diǎn)、放、提、拽、拉、按、寫、拔」等幾乎所有「人類手」能完成的操作。
眼:Mech-Eye高精度3D相機(jī)
梅卡曼德機(jī)器人的「眼」,就是Mech-Eye高精度3D相機(jī)了。
這個(gè)「眼睛」搭配自研先進(jìn)AI成像算法,因此可以對(duì)透明、反光的物體進(jìn)行高質(zhì)量成像。
這些3D相機(jī)具有多種型號(hào)的設(shè)計(jì),可以滿足不同場景下小體積、大視野、高精度、抗環(huán)境光等要求。
比如,它可以「看見」各類常見的復(fù)雜、真實(shí)物體。
還能「看見」各種顏色/細(xì)節(jié)豐富的各種真實(shí)貨品。
腦:Mech-GPT多模態(tài)大模型
梅卡曼德機(jī)器人的「腦」,就是Mech-GPT多模態(tài)大模型。
梅卡曼德通過自研AI大模型,可以讓機(jī)器人具備類人的學(xué)習(xí)、理解和推理能力。
機(jī)器人可以理解自然語言指令及復(fù)雜環(huán)境,還能自主執(zhí)行復(fù)雜任務(wù)。
只要我們發(fā)出指令,它便能準(zhǔn)確完成「把食肉動(dòng)物放到最大的容器里」等任務(wù)。
如果告訴它你餓了,它還會(huì)在思考后,主動(dòng)遞給你一只香蕉。
正是因?yàn)椤秆勰X手」的配合,才讓機(jī)器人具備了高階的智能,能夠理解人在說什么,還能從人類的自然語言中推理出我們究竟想要什么,從而完美完成任務(wù)。
實(shí)用場景廣泛
從機(jī)器人的貨架取貨場景,我們可以看出,正是因?yàn)橛辛恕秆勰X手」和人形機(jī)器人的綜合配合,它的速度才能這么快,效率才能這么高,才能在多種常見的使用場景中發(fā)揮作用。
從以上的種種demo中,我們可以清晰地感覺到:「眼腦手」和不同形態(tài)機(jī)器人配合后,使用的場景太豐富了!
比如疊衣服和GPT單臂的「眼腦手」功能,都體現(xiàn)了機(jī)器人在豐富居家場景中的可用性:處理多樣且復(fù)雜的任務(wù)。
而機(jī)器人在貨架上取貨,則屬于零售和商超場景,而且效率很高。因此在未來,它們非常有希望運(yùn)用到千行百業(yè)中。
而且,現(xiàn)在梅卡曼德的機(jī)器人已經(jīng)在工業(yè)場景大規(guī)模落地了。
這套系統(tǒng)早已不是實(shí)驗(yàn)里的樣品,而是真正落地在了汽車制造等工業(yè)現(xiàn)場,已經(jīng)廣泛服務(wù)數(shù)十家車企
通過高精度的3D相機(jī)、人工智能軟件和工業(yè)機(jī)器人的結(jié)合,讓它能在不到2秒鐘內(nèi)就能抓取一件物體,對(duì)海量物體的抓取和操作,都是自主執(zhí)行的。
這樣的速度,讓它完全可以替代人類員工完成任務(wù)了。
而在醫(yī)療、工業(yè)等領(lǐng)域,因?yàn)閷?duì)透明物體識(shí)別和抓取上料有超強(qiáng)的泛化性,它也有了超多的用武之地。
下面的場景,就體現(xiàn)出了梅卡曼德機(jī)器人對(duì)于透明物體強(qiáng)大的識(shí)別能力。
注意,這個(gè)過程中可不僅是攝像頭,而是采用了很多AI技術(shù),否則機(jī)器人不可能如此準(zhǔn)確地識(shí)別這些難度極高的全透明物體。
更令人印象深刻的是,梅卡曼德技術(shù)迭代非???,在AI等前沿技術(shù)上,他們一直在不斷升級(jí)。
具身智能大混戰(zhàn),為何他們率先上桌?
8年里,梅卡曼德通過「眼手腦」的戰(zhàn)略和AI技術(shù)的不斷迭代,讓自家的領(lǐng)域覆蓋了工業(yè)、物流、重工等多個(gè)行業(yè)。
用創(chuàng)始人、CEO邵天蘭的話說,這是一個(gè)「既要、又要、還要、也要」的過程:要有靠譜的硬件,有通用的AI算法,有落地快的部署能力,還有完善的培訓(xùn)、技術(shù)支持、合作伙伴網(wǎng)絡(luò),總之,這是在拼一整張「行業(yè)地圖」。
然而,他們卻扛住了壓力,連續(xù)五年做到了市占率第一,成為全球「AI+機(jī)器人」領(lǐng)域最大的獨(dú)角獸之一。
怎么做到的?這就要講到,創(chuàng)始人的獨(dú)特眼光了。
十幾年前,邵天蘭開始了一段孤勇的逆行之路:在清華本科畢業(yè)生中,他是唯一一個(gè)選擇去德國學(xué)機(jī)器人的人。這個(gè)選擇,在當(dāng)時(shí)看來十分非主流。
那時(shí),AlphaGo剛剛擊敗李世石,讓他看到一個(gè)時(shí)代正在眼前開啟。
在他看來,真正改變行業(yè)格局的,正是AI。不是要做單一控制的機(jī)器人動(dòng)作,而是讓機(jī)器人真正具備感知、理解、決策能力。
這也就是為什么梅卡曼德不做機(jī)器人「本體」,而是專注去打造「眼」「手」「腦」。
服務(wù)這么多行業(yè),需要瘋狂定制嗎?答案是否定的。梅卡曼德靠的恰恰就是極致標(biāo)準(zhǔn)化的產(chǎn)品+通用的AI算法。
原因在于,「眼」和「大腦」是共性的,個(gè)性的只是手腳動(dòng)作而已。
在宜家,一把椅子只要幾十塊,但找木匠定制就要上千。而梅卡曼德,走的就是「宜家模式」。
未來十年,機(jī)器人進(jìn)入家庭
10年前的自動(dòng)駕駛已經(jīng)證明:誰先把業(yè)務(wù)跑起來,誰就能先積累數(shù)據(jù)、驗(yàn)證模型,就能笑到最后。
今天的具身智能機(jī)器人,也是如此。
而現(xiàn)在,梅卡曼德已經(jīng)上桌了。
這家由清華海歸團(tuán)隊(duì)在2016年創(chuàng)辦的公司,才短短9年,就成為了全球?yàn)閿?shù)不多的,真正把具身智能機(jī)器人做成跨行業(yè)、多場景、大規(guī)模落地的佼佼者。
他們的機(jī)器人已經(jīng)在全球的15000多個(gè)場景落地,服務(wù)了超過100家的《財(cái)富》五百強(qiáng)客戶,業(yè)務(wù)遍布了50多個(gè)國家和地區(qū)。
根據(jù)第三方咨詢公司高工機(jī)器人產(chǎn)業(yè)研究所和睿工業(yè)的市場統(tǒng)計(jì)數(shù)據(jù),梅卡曼德機(jī)器人在細(xì)分領(lǐng)域,已經(jīng)在2020-2024年連續(xù)五年市場占有率排名第一。
工廠上料、快遞分揀、廚房助手……機(jī)器人助理,已經(jīng)成為下一個(gè)時(shí)代的標(biāo)配。
甚至根據(jù)邵天蘭的說法,指望機(jī)器人養(yǎng)老,可能比指望孩子更靠譜一點(diǎn)。
在他的設(shè)想中,90后在退休之前,就能看到機(jī)器人達(dá)到L4、L5的級(jí)別。
同時(shí)他也堅(jiān)信:讓機(jī)器人進(jìn)入家庭,未來十年一定會(huì)實(shí)現(xiàn)。
而梅卡曼德「眼+腦+手」的三重開掛,正在讓這種可能性越來越近。
來源:紅網(wǎng)
作者:徐俊云
編輯:員春雪
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。