21世紀(jì)經(jīng)濟(jì)報(bào)道記者孔海麗、實(shí)習(xí)生吳佳蕓北京報(bào)道
2025年世界人工智能大會(huì)(WAIC)期間,搭載騰訊Tairos平臺(tái)的宇樹(shù)人形機(jī)器人G1和騰訊首席科學(xué)家張正友有一場(chǎng)互動(dòng),當(dāng)張正友發(fā)出“站到我身邊來(lái)”的指令時(shí),機(jī)器人準(zhǔn)確理解方位含義,流暢移動(dòng)定位。
重要的是,全程沒(méi)有人工遙控干預(yù)。這一幕,是騰訊RoboticsX實(shí)驗(yàn)室最新發(fā)布的具身智能開(kāi)放平臺(tái)Tairos的能力縮影。
WAIC期間,耕耘許久的騰訊首次對(duì)外公開(kāi)了在具身智能領(lǐng)域的路線圖。面對(duì)沸騰的行業(yè),騰訊選擇了一條獨(dú)特路徑——做行業(yè)的“鈦螺絲”。
與常見(jiàn)的科技公司高調(diào)商業(yè)化路徑不同,Tairos平臺(tái)的基調(diào)與騰訊整體路徑保持一致,如馬化騰所說(shuō),在具身智能領(lǐng)域,騰訊希望成為所有機(jī)器人廠商的合作伙伴,而不是取而代之做硬件,“這和我們的整體戰(zhàn)略目標(biāo)一致”。
“2018年初騰訊RoboticsX成立時(shí)沒(méi)有任何商業(yè)化的目的?!睆堈烟寡裕骸爱?dāng)時(shí)國(guó)內(nèi)甚至找不到成熟的機(jī)器人硬件廠家,我們不得不既做硬件又做軟件?!倍?023年下半年起,ChatGPT引爆的AI大模型熱潮催生出大量機(jī)器人創(chuàng)業(yè)公司,產(chǎn)業(yè)格局驟變。
然而,距離落地還有很長(zhǎng)一段路要走。
張正友說(shuō),從基礎(chǔ)模型到真機(jī)部署,每一個(gè)環(huán)節(jié),都藏著不少"坑"。
具身智能的落地,不僅僅是算法問(wèn)題、或者模型能力的問(wèn)題,而是一個(gè)復(fù)雜、環(huán)環(huán)相扣的系統(tǒng)工程挑戰(zhàn),需要打通數(shù)據(jù)、訓(xùn)練、調(diào)試、部署的全鏈條。
從宏觀的角度來(lái)看,機(jī)器人對(duì)3D世界的認(rèn)知,以及動(dòng)態(tài)世界的建模,還處于初步階段。具身智能需要更大的泛化能力,才能讓“身”與“智”協(xié)同進(jìn)化,無(wú)縫地適應(yīng)多變的環(huán)境。
走訪了六十幾家機(jī)器人企業(yè)后,團(tuán)隊(duì)發(fā)現(xiàn)軟件能力是機(jī)器人走向場(chǎng)景落地的共性痛點(diǎn),業(yè)內(nèi)普遍缺乏好的模型和仿真工具。
騰訊的具身智能開(kāi)放平臺(tái)Tairos“鈦螺絲”想做這件事。
Tairos包括一套云端服務(wù)和三個(gè)具身模型,多模態(tài)感知模型、規(guī)劃大模型和感知行動(dòng)聯(lián)合大模型。
這三個(gè)大模型,分別是機(jī)器人的“左腦”、“右腦”和“小腦”,負(fù)責(zé)讓機(jī)器人理解目標(biāo)任務(wù)和所處環(huán)境,從而執(zhí)行操作。
規(guī)劃大模型支持復(fù)雜任務(wù)規(guī)劃,多模態(tài)感知大模型融合視覺(jué)、位置等環(huán)境信息,而感知-行動(dòng)聯(lián)合大模型實(shí)現(xiàn)操作和運(yùn)動(dòng)能力。
云服務(wù)層則讓開(kāi)發(fā)者可以通過(guò)云平臺(tái)完成仿真、訓(xùn)練、數(shù)據(jù)管理等關(guān)鍵環(huán)節(jié),并通過(guò)SDK/API靈活對(duì)接硬件。
這個(gè)面向機(jī)器人本體開(kāi)發(fā)商的平臺(tái),是團(tuán)隊(duì)為具身智能廠商打造的“工具”,旨在解決基礎(chǔ)模型、場(chǎng)景數(shù)據(jù)采集、訓(xùn)練仿真和真機(jī)部署四個(gè)環(huán)節(jié)的落地難題。
張正友用Windows的生態(tài)成功類(lèi)比Tairos的愿景:“如果平臺(tái)不能與不同廠家良好兼容,就不可能發(fā)展起來(lái)?!睘榇?,騰訊在發(fā)布前已深度聯(lián)合宇樹(shù)、越疆、帕西尼等頭部硬件伙伴打磨平臺(tái),確保其真正解決行業(yè)痛點(diǎn)。
進(jìn)入人形機(jī)器人“量產(chǎn)元年”,騰訊的具身智能戰(zhàn)略分為兩部分:投資和前沿探索。今年以來(lái),騰訊已投資智元機(jī)器人和宇樹(shù)科技至少兩家具身智能機(jī)器人公司,早前也投資了樂(lè)聚和優(yōu)必選。
而另一邊,對(duì)于親自下場(chǎng)做具身智能,RoboticsX實(shí)驗(yàn)室選擇先做原型和平臺(tái),再根據(jù)市場(chǎng)需求推進(jìn)產(chǎn)品化,并對(duì)機(jī)器人本體的具體形態(tài)保持開(kāi)放態(tài)度。
“本體是一個(gè)值得探索的過(guò)程?!睆堈阎赋?,做機(jī)器人不是為了仿生,而是為了在人居環(huán)境里實(shí)現(xiàn)更高效、更理想的形態(tài)。若以“人形”作為機(jī)器人的標(biāo)準(zhǔn)形態(tài),可能會(huì)限制行業(yè)的想象力。
對(duì)于行業(yè)的未來(lái),張正友說(shuō),“過(guò)熱”是一個(gè)好現(xiàn)象,參與的人越來(lái)越多,行業(yè)發(fā)展就會(huì)越來(lái)越快。當(dāng)前行業(yè)處于探索過(guò)程,尤其是對(duì)本體形態(tài)的探索。在這一過(guò)程中,RoboticsX實(shí)驗(yàn)室像是一把“螺絲刀”,為機(jī)器人本體廠商打磨基礎(chǔ),邁向行業(yè)爆發(fā)iPhone時(shí)刻。
WAIC期間,張正友首次公開(kāi)分享了騰訊RoboticsX實(shí)驗(yàn)室在具身智能領(lǐng)域的探索與對(duì)行業(yè)的判斷,這也是騰訊為數(shù)不多的對(duì)外釋放關(guān)于具身智能的業(yè)務(wù)邏輯。以下為對(duì)話實(shí)錄,經(jīng)
做行業(yè)的“鈦螺絲”
21世紀(jì):騰訊說(shuō)要做硬件廠商的合作伙伴,現(xiàn)階段會(huì)把大部分精力和資源放在哪些能力上的提升?
張正友:我們從去年底開(kāi)始在做這個(gè)事情之前,先認(rèn)真調(diào)研了行業(yè),累計(jì)到現(xiàn)在差不多跑過(guò)六十幾家企業(yè)。我們已經(jīng)走訪了全國(guó)的廠家,深圳、上海、北京,整個(gè)華東地區(qū),還有西部地區(qū)。
我們真正出去的時(shí)候,其實(shí)發(fā)現(xiàn)中國(guó)大量的機(jī)器人企業(yè),它硬件其實(shí)是可以做得很好的。但具身智能在投入這一塊其實(shí)是非常大的。我們初期會(huì)去選取一些高配合度的種子企業(yè),然后深度地聯(lián)合去做一些case。
今年上半年的想法就是說(shuō)我們先去找一些企業(yè)去打磨產(chǎn)品,這其實(shí)也是過(guò)往騰訊做產(chǎn)品的思路,就是不能一下子鋪太多的,一定是像1.0版本,要去找?guī)讉€(gè)企業(yè)深入落地。一部分產(chǎn)品標(biāo)準(zhǔn)化了之后,就可以慢慢地開(kāi)始鋪量。
21世紀(jì):騰訊什么方面的能力、優(yōu)勢(shì)可以幫助到他們?
張正友:具身智能以及今天發(fā)布的三個(gè)模型,規(guī)劃、多模態(tài)感知和感知行動(dòng)大模型,每一個(gè)模塊他們都可以去用。然后還有仿真平臺(tái),他們可以上傳他們自己的機(jī)器人,在仿真平臺(tái)里面嘗試一下。
我們的模型既可以在真實(shí)機(jī)器人上面運(yùn)作,也可以在仿真環(huán)境里面用。在仿真環(huán)境里,如果遇到完成不了的任務(wù),它會(huì)直接送到后面強(qiáng)化學(xué)習(xí)去改進(jìn)它的規(guī)劃大模型。因?yàn)槲覀儾豢赡馨咽澜缟纤械目赡艿娜蝿?wù)都想清楚的。最后我們希望用平臺(tái)的每個(gè)人、每個(gè)廠家可以把訓(xùn)練好的、針對(duì)他們本體的模型拿去,部署到真機(jī)上去。
21世紀(jì):所以現(xiàn)階段的重點(diǎn)還是在模塊化能力上的提升?
張正友:模型能力還有仿真環(huán)境,這里面其實(shí)難的地方挺多的。
比方說(shuō)在操作里面,力感知和觸覺(jué)感知是非常重要的,像觸覺(jué)傳感器沒(méi)有標(biāo)準(zhǔn)化,那在仿真里面如何讓觸覺(jué)很真實(shí)的仿真出來(lái)?像人的觸覺(jué),空間分辨率在1毫米左右,在仿真環(huán)境里面現(xiàn)在還達(dá)不到這么好的分辨率。
每個(gè)模塊無(wú)論是感知規(guī)劃,大腦小腦,感知行動(dòng)聯(lián)合大模型,仿真、數(shù)據(jù)采集,每個(gè)環(huán)節(jié)都有很多需要提升的地方。
21世紀(jì):對(duì)整個(gè)行業(yè)來(lái)說(shuō),還有哪些是在機(jī)器人落地方面比較難、急需補(bǔ)足的地方?
張正友:從技術(shù)角度看落地的話,對(duì)3D的世界認(rèn)知,動(dòng)態(tài)世界包括物體、材料各方面的建模,就是世界模型,還是處于初步的階段。
然后規(guī)劃,像大語(yǔ)言模型它也能做一些規(guī)劃,但它的規(guī)劃因?yàn)槭峭ㄟ^(guò)文本來(lái)理解世界,所以沒(méi)那么深。大語(yǔ)言模型會(huì)把世界上所有的各種各樣的知識(shí)都放進(jìn)去,但是針對(duì)現(xiàn)實(shí)世界,有很多東西是用文字描述不出來(lái)的。
比方說(shuō)動(dòng)物它沒(méi)有語(yǔ)言,但是它還能還是能夠在3D世界里面很好地活下來(lái),不需要語(yǔ)言。就是說(shuō)規(guī)劃方面,沒(méi)有3D世界的理解,可能很多情況下都做不好。
再講到感知行動(dòng)大模型,像觸覺(jué)感知,這些目前還是很缺乏的。多模態(tài)感知里面,圖像和視頻,或者是語(yǔ)音或者文本這些都是很標(biāo)準(zhǔn)化的。但是觸覺(jué)傳感器,我們從實(shí)驗(yàn)室成立以后就覺(jué)得觸覺(jué)非常重要,經(jīng)過(guò)7年研究,現(xiàn)在還沒(méi)有達(dá)到真正能夠標(biāo)準(zhǔn)化的程度。當(dāng)然還有其他公司已經(jīng)參與到觸覺(jué)傳感器的研發(fā),所以很多都需要大家一起努力,整個(gè)行業(yè)一起努力。
產(chǎn)品化與商業(yè)化探索
21世紀(jì):今年具身智能那么火,落地的可能性變大很多,你們對(duì)商業(yè)化的態(tài)度會(huì)不會(huì)有所改變?
張正友:騰訊RoboticsX實(shí)驗(yàn)室2018年初成立的時(shí)候沒(méi)任何商業(yè)化的目的,因?yàn)槟菚r(shí)候情況很不一樣,那時(shí)候你看看能不能找到一個(gè)能夠做機(jī)器人的硬件廠家?一個(gè)都沒(méi)有,所以我們那時(shí)候就必須要自己從頭既做硬件又做軟件,各方面的全部都要做。
從2023年下半年開(kāi)始,整個(gè)機(jī)器人行業(yè)就有很大的變化,一個(gè)是ChatGPT引起AI大模型的關(guān)注,很多機(jī)器人企業(yè)就出來(lái)了,很多創(chuàng)業(yè)公司。我們那時(shí)候就是啥都要做,他們有些比較關(guān)注機(jī)器狗或者是人形機(jī)器人,還有一些觸覺(jué)傳感器、靈巧手,有很多機(jī)器人本體。
形勢(shì)已經(jīng)變化了,從騰訊角度來(lái)看,我們需要跟這些機(jī)器人廠家一起去打磨我們的技術(shù)。另外,前沿探索還是很重要,我們還會(huì)繼續(xù)前沿探索,但有些能力是希望能夠跟機(jī)器人本體廠家一起,和應(yīng)用廠家一起去往前來(lái)提升的。
與其說(shuō)商業(yè)化,其實(shí)我們現(xiàn)在的方向是一個(gè)產(chǎn)品化。我們做了很長(zhǎng)時(shí)間的前沿探索,積累了大量經(jīng)驗(yàn),和一些成熟的技術(shù)成果,現(xiàn)在更多希望能把這些變成一個(gè)產(chǎn)品。之前更多是供內(nèi)部來(lái)科研使用,未來(lái)更多想把這些科研成果變成產(chǎn)品,供給市場(chǎng)上的機(jī)器人廠商和第三方的廠家,讓他們?nèi)バ纬伤麄冏约捍虬梢粋€(gè)更完整的產(chǎn)品。
要區(qū)分產(chǎn)品化和商業(yè)化。我是做研究的科學(xué)家,商業(yè)化聽(tīng)起來(lái)就是要去賺錢(qián),但是我們是不賺錢(qián)的。Tairos特地強(qiáng)調(diào)我們自己不是以賺錢(qián)為目的的,我們希望把我們變成一個(gè)比較穩(wěn)定的產(chǎn)品來(lái)賦能機(jī)器人的行業(yè)。
21世紀(jì):現(xiàn)在很多公司希望做商業(yè)量產(chǎn),騰訊沒(méi)有選擇這樣做,是怎樣考慮的?
張正友:騰訊公司的角度,比如要不要做一個(gè)機(jī)器狗?從我的角度是不支持去做的,不值得去做的,我自己也不會(huì)做,因?yàn)檫€有更大的目標(biāo)在支撐著我們。
比如養(yǎng)老,能不能把機(jī)器人具身智能技術(shù)和本體里面某些核心技術(shù),比如說(shuō)觸覺(jué)傳感器、定制皮膚這些能力能不能繼續(xù)往前推進(jìn)?離這個(gè)還很遠(yuǎn),我加入騰訊成立機(jī)器人實(shí)驗(yàn)室,那時(shí)候規(guī)劃的是十年時(shí)間,現(xiàn)在七年已經(jīng)過(guò)去了,三年以后就差不多。不管怎么樣,要達(dá)到那個(gè)效果,我才可能希望養(yǎng)老各方面都能做起來(lái)。假如我一開(kāi)始停留在Max腿輪一體化機(jī)器狗上面,那后面就沒(méi)精力去做其他東西了。
21世紀(jì):騰訊在研發(fā)上如何平衡長(zhǎng)期的前沿探索和中短期應(yīng)用場(chǎng)景關(guān)系?
張正友:前沿探索有很多不確定性,假如是通過(guò)什么時(shí)候一定要交付什么產(chǎn)品,往往會(huì)做成hardcode(“寫(xiě)死”)的東西了。舉個(gè)不好的例子,比如現(xiàn)在所有東西都要跑馬拉松,馬拉松有的時(shí)候可能有些技術(shù)到了,那就硬做一些東西,或者一些遙控,那就做得不好了。這個(gè)地方為什么一定要足夠多的自由度,做前沿探索必須要往前推進(jìn)。
21世紀(jì):機(jī)器人到底到了什么階段?會(huì)不會(huì)整個(gè)行業(yè)有點(diǎn)過(guò)于樂(lè)觀?
張正友:行業(yè)過(guò)熱這看怎么定義,因?yàn)榇蠹铱吹竭@個(gè)前景很吸引人,我更多講的是投資角度。有些公眾對(duì)于機(jī)器人服務(wù)人、融入到人類(lèi)社會(huì)、融入到生產(chǎn)和生活中有很大的熱情。
這個(gè)熱情我覺(jué)得對(duì)于我們來(lái)說(shuō)是一件好事,也是對(duì)我們提出了更高要求,也給我們提供了很多試驗(yàn)場(chǎng)。參與人越來(lái)越多,行業(yè)發(fā)展會(huì)越來(lái)越快。
如果大家不知道這件事情,不會(huì)有一天跟我說(shuō)你們機(jī)器人能不能干這個(gè)、干那個(gè),其實(shí)我們也缺少很多這種挑戰(zhàn)。至少對(duì)于我們從業(yè)者來(lái)說(shuō)是一件好事情。
21世紀(jì):騰訊在具身智能這波浪潮里面的節(jié)奏是怎樣的?
張正友:從某種角度來(lái)講我們做得很早,我們是探索性前沿研究的,本來(lái)就應(yīng)該早?,F(xiàn)在有些能力我們覺(jué)得能夠支撐到行業(yè)發(fā)展,所以把這些能力開(kāi)放出來(lái),所以這個(gè)不晚。我們還需要繼續(xù)做前沿研究,因?yàn)楝F(xiàn)在開(kāi)放出來(lái)的技術(shù)還是剛才講的,現(xiàn)在具身智能只是在初步階段,還有很長(zhǎng)的路需要走。假如說(shuō)是iPhone做了多少年還在往前推進(jìn),這個(gè)很難估計(jì),我估計(jì)三五年,我2018年講的十年規(guī)劃。
古代宮斗文:一曲長(zhǎng)歌,唱不盡王府繁華背后的陰謀
古代言情文:滿腹詩(shī)書(shū),絕世容顏,卻只能代替妹妹嫁給殘廢的王爺
強(qiáng)推4部宮斗小說(shuō),《邪王鎖心》人物設(shè)定吸睛,喜歡的不要錯(cuò)過(guò)!
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。