明敏發(fā)自凹非寺量子位|公眾號(hào)QbitAI
不造硬件、不量產(chǎn)、不做商業(yè)化。
這是騰訊加入當(dāng)下具身智能熱潮的姿勢(shì)。
那要做什么?
一個(gè)具身智能的通用外接大腦。而且不是端到端,是模塊化提供能力。也就是各家機(jī)器人可以從中獲取自己想要的部分能力。
效果belike,搭載了該大腦的宇樹(shù)機(jī)器人,可以實(shí)時(shí)處理人類語(yǔ)音指令,閑聊、完成任務(wù),還能判斷自己能干什么、不能干什么。
比如它能看到桌子上比原先多了一個(gè)玩偶,但是它沒(méi)有靈巧手,所以并不能拿起玩偶。
這就是具身智能Tarios平臺(tái),在WAIC2025期間正式亮相。
它集成了目前騰訊在具身智能領(lǐng)域的軟件能力,包括多模態(tài)、規(guī)劃、感知算法,以及開(kāi)發(fā)、仿真、數(shù)據(jù)等工具。
包括宇樹(shù)、越疆、樂(lè)聚、帕西尼、擎朗、眾擎等大熱具身智能領(lǐng)域玩家,都已火速達(dá)成合作。
而且還沒(méi)啥后顧之憂——騰訊再次強(qiáng)調(diào)了自己不下場(chǎng)做硬件本體、不搞量產(chǎn)、不搞商業(yè)化。
這一波直接格局打開(kāi),誰(shuí)都能來(lái)當(dāng)“騰訊系”機(jī)器人了(doge)。
爆火具身智能,需要“外接大腦”
首先來(lái)拆解一下Tairos平臺(tái)本身。
它核心包含兩個(gè)方面:
模型算法云服務(wù)
模型層面主要包含三部分:多模態(tài)感知模型、規(guī)劃大模型、感知行動(dòng)聯(lián)合大模型。每個(gè)部分可以類比成人類大腦的一部分。
云服務(wù)方面主要是以工具平臺(tái)形式提供,可以用于開(kāi)發(fā)、訓(xùn)練、測(cè)試和部署機(jī)器人應(yīng)用。
平臺(tái)通過(guò)標(biāo)準(zhǔn)化接口調(diào)用以及軟件開(kāi)發(fā)工具包(SDK)的方式對(duì)外提供服務(wù)。
騰訊強(qiáng)調(diào),Tairos是國(guó)內(nèi)首個(gè)以模塊化的方式提供大模型、開(kāi)發(fā)工具和數(shù)據(jù)服務(wù)的具身智能軟件平臺(tái),即插即用的方式向機(jī)器人行業(yè)開(kāi)放。
這意味著機(jī)器人廠商能基于自身情況進(jìn)行更靈活選擇。
比如有的廠商在感知模塊上還有欠缺,那就可以直接使用Tairos上的感知大模型;如果是長(zhǎng)線程規(guī)劃做得不夠好,那就可以使用規(guī)劃大模型。
以及如果機(jī)器人廠商接入了開(kāi)源模型,Tairos也能提供后訓(xùn)練一套完整流程能力,能讓廠商只需少量數(shù)據(jù)就能完成適配。
簡(jiǎn)而言之,Tarios就是希望成為各家機(jī)器人的外接大腦,為不同廠商補(bǔ)齊關(guān)鍵軟件能力。
目前首批合作的機(jī)器人廠商伙伴包括:越疆科技、樂(lè)聚機(jī)器人、帕西尼感知科技、擎朗智能、眾擎機(jī)器人科技、宇樹(shù)科技等。
與此同時(shí),騰訊首席科學(xué)家、騰訊RoboticsX實(shí)驗(yàn)室主任張正友博士也再次重申了騰訊做具身智能的“三不原則”:
不做硬件、不做量產(chǎn)、不搞商業(yè)化。
具身智能如火如荼,騰訊還是如此克制,背后又有哪些考量?
只考慮雙足人形、硬件本體,就限制發(fā)展了
首先對(duì)于騰訊內(nèi)部而言,對(duì)機(jī)器人的長(zhǎng)期關(guān)注重點(diǎn),始終都不是商業(yè)化、量產(chǎn)以及硬件本體。
騰訊RoboticsX實(shí)驗(yàn)室成立于2018年,由張正友領(lǐng)導(dǎo)創(chuàng)立,實(shí)驗(yàn)室的目標(biāo)是致力于機(jī)器人前沿技術(shù)的研究與應(yīng)用,重點(diǎn)關(guān)注在人居環(huán)境的實(shí)際應(yīng)用。
張正友目前是騰訊首席科學(xué)家、騰訊RoboticsX實(shí)驗(yàn)室主任、福田實(shí)驗(yàn)室主任。他是ACMFellow和IEEEFellow,也是國(guó)際上最早將計(jì)算機(jī)視覺(jué)與機(jī)器人結(jié)合研究的知名科學(xué)家,在計(jì)算機(jī)視覺(jué)、語(yǔ)音處理、多媒體技術(shù)和機(jī)器人領(lǐng)域都頗具影響力。在加入騰訊之前,張正友已經(jīng)在微軟研究院工作20年。
2018年,騰訊成為國(guó)內(nèi)最早一批布局機(jī)器人技術(shù)的大廠。
張正友最初制定的“A2G”指導(dǎo)方針包含7大方向,如今也是具身智能討論度最高的幾個(gè)維度:
人工智能(AI)機(jī)器人本體(Body)精準(zhǔn)控制(Control)發(fā)育學(xué)習(xí)(Developmentallearning)情感理解(EQ)靈巧操控(Flexiblemanipulation)守護(hù)天使(GuardianAngel)
后面技術(shù)路線進(jìn)一步收斂到三大方向:移動(dòng)、操作和智能決策。這是因?yàn)閷?shí)驗(yàn)室認(rèn)為最終要服務(wù)于人、走進(jìn)千家萬(wàn)戶的任何一類機(jī)器人都基本包含這三塊能力。
目前騰訊RoboticsX發(fā)布的研究原型包括機(jī)器狗Max、人居環(huán)境機(jī)器人“5號(hào)”等。
這些成果更多強(qiáng)調(diào)具身智能“通用大腦”層面的提升,并不是只局限在一個(gè)硬件本體上做迭代。
比如在機(jī)器狗上研發(fā)的多模態(tài)感知-規(guī)劃技術(shù),可以讓騰訊Max與宇樹(shù)Go2兩款不同機(jī)器人根據(jù)人類語(yǔ)音指令在動(dòng)態(tài)開(kāi)放環(huán)境中自主完成多項(xiàng)交互任務(wù)。
人居環(huán)境機(jī)器人“小五”則融合了四腿輪足設(shè)計(jì)、大面積觸覺(jué)皮膚、多指靈巧手以及安全人機(jī)物理交互等多項(xiàng)技術(shù)??梢栽谌司迎h(huán)境里行走、搬東西并和人交互。
張正友解釋,他并不建議騰訊去聚焦做機(jī)器人硬件本體,因?yàn)榫呱碇悄鼙旧泶嬖诟蟮哪繕?biāo),比如養(yǎng)老。在這一命題下,觸覺(jué)傳感器、定制皮膚等方面能力能不能繼續(xù)前進(jìn)?
假如我一開(kāi)始就停留在Max腿輪一體化機(jī)器狗上面,那后面可能就沒(méi)有精力做其他東西了。
同理,騰訊一直沒(méi)有做雙足人形機(jī)器人,也有類似的考量。
一方面,雙足人形的形態(tài)已經(jīng)存在,不需要花太多精力思考,只需要去控制它就好了。
另一方面,雙足人形是幾千萬(wàn)年下在復(fù)雜環(huán)境中逐漸進(jìn)化出的形態(tài),但現(xiàn)如今的人居環(huán)境已經(jīng)大不相同,大部分都是平地,那么雙足就不再是必須,因?yàn)樾屎艿汀?/p>
騰訊做輪腿一體化不是為了仿生,而是想要探索在人居環(huán)境里有沒(méi)有更高效、更理想的形態(tài)
以及現(xiàn)在假如以人形為標(biāo)準(zhǔn),那么很多想象力就被限制了。比如,如果機(jī)器人的交流也像人一樣只基于語(yǔ)言,那么它的講話速度就限制在了每分鐘100個(gè)字左右,但是如果機(jī)器人有一個(gè)屏幕可以直接閱讀,一分鐘可以閱讀的文字是300字左右,效率直接提升3倍。
所以,在具身智能還處于非常早期的階段時(shí),騰訊還是希望更關(guān)注于基礎(chǔ)研究與前沿探索,不希望技術(shù)路線過(guò)早收斂。
其次,結(jié)合外部趨勢(shì)來(lái)看,騰訊現(xiàn)在其實(shí)更不需要做硬件。
張正友表示,在2018年時(shí)國(guó)內(nèi)還很難找到做機(jī)器人硬件的廠家,所以騰訊不得不既做硬件又做軟件,各方面能力都要關(guān)注。
現(xiàn)如今國(guó)內(nèi)涌現(xiàn)出一大批機(jī)器人創(chuàng)業(yè)公司,騰訊走訪過(guò)的企業(yè)就高達(dá)60家,這意味著在硬件領(lǐng)域已經(jīng)不缺好用可落地的方案,因此騰訊當(dāng)下可以更加關(guān)注軟件層面,與硬件廠商一起打磨技術(shù)推動(dòng)落地。
此次發(fā)布Tarios也是希望和廠商們深層合作,進(jìn)一步優(yōu)化拓展平臺(tái)能力。騰訊強(qiáng)調(diào),相較于商業(yè)化,他們認(rèn)為這一步動(dòng)作更應(yīng)該被稱為“產(chǎn)品化”,是將過(guò)去積累的能力包裝成外部可以直接使用的產(chǎn)品。
此外,通過(guò)和廣大廠商的合作,騰訊可以更好洞察行業(yè)趨勢(shì)與痛點(diǎn)。
比如張正友多次提到,具身智能當(dāng)下還需要補(bǔ)足對(duì)3D世界、動(dòng)態(tài)環(huán)境以及物體材料各方面的認(rèn)知。這不是一句話、一張照片生成3D環(huán)境即可,而是需要讓機(jī)器人在仿真環(huán)境里能夠真正操作。
以及現(xiàn)在很多方案都是基于大語(yǔ)言模型做規(guī)劃,但是針對(duì)現(xiàn)實(shí)世界,很多東西是文本所不能描述的。比如動(dòng)物沒(méi)有語(yǔ)言,但是它們都能在3D世界里很好生活下來(lái)……
以上都是產(chǎn)業(yè)界亟需解決的問(wèn)題。
目前,騰訊已經(jīng)提出了區(qū)別于業(yè)界端到端的解決方案——提出層次化學(xué)習(xí)解決方案,在SLAP框架下(感知、學(xué)習(xí)、行動(dòng)、規(guī)劃),通過(guò)多個(gè)層次的不斷積累和更新知識(shí),讓機(jī)器人更加智能,能夠與現(xiàn)實(shí)世界進(jìn)行交互,實(shí)現(xiàn)真正的具身智能,包括反應(yīng)式的自主和有意識(shí)的自主。
張正友提到,未來(lái)具身智能的發(fā)展將圍繞“IDEAS”框架展開(kāi),包括虛實(shí)集成世界、技術(shù)門檻降低、智能演進(jìn)、智能體化和感知拓展。這些方向?qū)⑼苿?dòng)機(jī)器人在復(fù)雜場(chǎng)景下的應(yīng)用,例如養(yǎng)老服務(wù)等需要安全復(fù)雜交互的領(lǐng)域。
由此,從內(nèi)到外,騰訊的具身智能戰(zhàn)略更進(jìn)一步清晰明了。
對(duì)于具身智能的時(shí)刻,張正友覺(jué)得距離“iPhone時(shí)刻”、“大哥大時(shí)刻”都還有一段距離,推出Tarios就是希望能推動(dòng)行業(yè)更快進(jìn)入到“大哥大時(shí)刻”。
至于大家都好奇的終極形態(tài),張正友則借用了唐朝智聰大師的一句話點(diǎn)明:
三身元我體,四智本心明。身智融無(wú)礙,應(yīng)物任隨形。
延伸閱讀:與 京東燒得:起!!嗎 的相關(guān)文章