騰訊一口氣發(fā)布3個具身模型,包括動態(tài)感知、規(guī)劃、感知行動聯(lián)合模型,分別對應(yīng)人類的左腦、右腦和小腦。
騰訊想要把模型和算力賣給機(jī)器人公司;
人類的雙足是為了適應(yīng)復(fù)雜環(huán)境而進(jìn)化,而今天的人居環(huán)境或許可以讓我們暢想不同于雙足機(jī)器人的其他形態(tài);
具身智能的iPhone時刻或許還要三到五年。
7月27日,騰訊在世界人工智能大會(WAIC2025)上發(fā)布了3個具身模型:多模態(tài)感知模型、規(guī)劃大模型以及感知行動聯(lián)合大模型,以及一個囊括了這3個具身模型和云計算能力的Tairos平臺。這些模型的發(fā)布,有望結(jié)束行業(yè)里機(jī)器人靠遙控才能行走的歷史。
自2018年成立機(jī)器人實驗室RoboticsX起,騰訊在機(jī)器人領(lǐng)域就時有產(chǎn)品形態(tài)消息傳出,先是2021年發(fā)布了首個名為Max的機(jī)器狗產(chǎn)品,然后是去年9月,騰訊又展示了一個叫「小五」的接近人形的機(jī)器人,它有著接近人的上半身,但下身是個有著4條腿的輪式結(jié)構(gòu)。
進(jìn)入2025年以來,騰訊又投資了至少2家具身智能的機(jī)器人公司,包括3月領(lǐng)投智元機(jī)器人、6月參投宇樹科技,此前,騰訊還投資過上一代機(jī)器人公司樂聚機(jī)器人和優(yōu)必選。
包括京東、美團(tuán)在內(nèi)的互聯(lián)網(wǎng)大廠也都在布局具身智能和人形機(jī)器人。但7月27日的發(fā)布會表明,騰訊會以不一樣的方式加入具身智能賽道。
騰訊首席科學(xué)家、騰訊RoboticsX實驗室主任、福田實驗室主任張正友。
7月27日的模型和Tairos平臺發(fā)布結(jié)束后,騰訊首席科學(xué)家、騰訊RoboticsX實驗室主任、福田實驗室主任張正友接受了包括第一財經(jīng)「新皮層」在內(nèi)的采訪。
這是騰訊首次對外闡述它設(shè)立機(jī)器人實驗室7年來的探索和認(rèn)知,以及在騰訊的機(jī)器人戰(zhàn)略中,它想要在這一新終端設(shè)備中扮演什么角色——它想做的是機(jī)器人大腦,而不是本體,而且,它想把大腦以及算力賣給機(jī)器人公司。無論它此前向外界展示過多少機(jī)器人硬件形態(tài),那些都是騰訊機(jī)器人實驗室為探索理想的機(jī)器人形態(tài)制作的原型機(jī),目標(biāo)不是推向市場賣給用戶。
機(jī)器人時代會有機(jī)器人的基礎(chǔ)設(shè)施、操作系統(tǒng)出現(xiàn),騰訊似乎想要扮演這樣的角色。不過張正友認(rèn)為,就目前階段而言,無論機(jī)器人的具身模型還是硬件形態(tài),都還處在探索階段,他認(rèn)為,完全類人的雙足、自然語言口語交互設(shè)計,并不是最優(yōu)的。采訪中,他闡述了騰訊在機(jī)器人領(lǐng)域會做什么,以及不做什么。
以下是張正友與包括第一財經(jīng)「新皮層」在內(nèi)的媒體采訪記錄,經(jīng)
機(jī)器人公司負(fù)責(zé)本體,騰訊提供大腦
提問:跟其他競品比,Tairos平臺的優(yōu)勢和特點(diǎn)是什么?
張正友:一個是模塊化,每個廠家都可以選取它自己想要的模塊,因為每個廠商可能有它自己的特長,它擅長的模塊,就不需要我們這個平臺了。比如有的廠商有感知模塊,但長程規(guī)劃做得不夠好,那就可以用我們的規(guī)劃模型。
另一個特點(diǎn)是,我們這個平臺是比較完整的,包括左腦、右腦和小腦,廠商只需要很少量的數(shù)據(jù)(就能用得起來)。
提問:Tairos平臺目前收到了多少合作需求?騰訊在這個方向上的節(jié)奏是怎樣的?
張正友:我們調(diào)研了全國的機(jī)器人廠家,不光是上海、華東地區(qū),還有深圳、北京、西部地區(qū)的成都等。去年年底,我們開始做這個事(注:做開放平臺)之前,先認(rèn)真調(diào)研了行業(yè),差不多跑過六十幾家企業(yè),發(fā)現(xiàn)中國大量的機(jī)器人公司其實很難同時在軟件和硬件層都做得很好,因為具身智能本身投入非常大。
騰訊2022年發(fā)布的新一代機(jī)器狗Max2.0。
騰訊RoboticsX機(jī)器人團(tuán)隊成立已經(jīng)超過7年了,調(diào)研發(fā)現(xiàn),大家對我們做這個事(具身智能平臺)都非常歡迎。所以一開始,我們主動出擊去選取了一些高配合度的機(jī)器人企業(yè),然后我們跟它們深度地結(jié)合去做一些case。
我們上半年的想法就是先去找一些企業(yè)去打磨產(chǎn)品,這也是我們過去做產(chǎn)品的思路,1.0版本一定要去找?guī)讉€企業(yè)深入落地。到7月我們把平臺發(fā)布出來,以及參加這次展會,是處在一部分產(chǎn)品標(biāo)準(zhǔn)化了之后慢慢開始鋪量的階段。
我們做事情的節(jié)奏就是穩(wěn)扎穩(wěn)打,今天發(fā)布了3個模型,還有仿真平臺,機(jī)器人公司已經(jīng)可以把它們的機(jī)器人放到仿真器里試試看行不行。我們的模型既可以在真實機(jī)器人上運(yùn)作,也可在虛擬環(huán)境用。
提問:現(xiàn)階段重點(diǎn)還是模型能力?
張正友:模型能力還有仿真環(huán)境,這里面其實要解決的問題挺多的。比方說在操作智能里面,機(jī)器人對力的感知和觸覺感知是非常重要的,但這類數(shù)據(jù)的質(zhì)量還沒有標(biāo)準(zhǔn)化,這類數(shù)據(jù)差不多要達(dá)到一毫米左右的空間分辨率,但目前仿真環(huán)境還不能很好地支持這一點(diǎn)。
另外,每個模塊,無論感知、規(guī)劃、大腦、小腦、數(shù)據(jù)采集……每個環(huán)節(jié)都有很多需要提升的空間。從大的技術(shù)角度看,模型對3D的世界認(rèn)知,動態(tài)世界包括物體材料等各方面如何建模,也就是世界模型,其實還屬于初步階段。因為機(jī)器人的世界是要能夠在真實、虛擬空間里操作的,比如你拍張照,上面有個茶杯,你根據(jù)這個照片建立一個3D模型,看起來很真實,但機(jī)器人能不能根據(jù)這個3D模型把杯子抓起來,是個問題。
大語言模型也能做一些規(guī)劃,但它是通過文本來理解世界,對3D世界的理解沒那么深,現(xiàn)實世界的很多東西用文字是描述不出來的。比方說動物沒有語言,但它還是能在3D世界活得很好。規(guī)劃不一定需要語言,沒有對3D世界的理解,就很難在運(yùn)動中做規(guī)劃。
提問:騰訊今天發(fā)布了3個模型,一個動態(tài)感知、一個規(guī)劃、一個感知行動聯(lián)合模型,哪個模型是更核心的?技術(shù)成熟度有沒有一個排序?跟同行比,騰訊在哪個模型上可以跟同行拉開代際差異?
張正友:這三個模型都需要,就像我們的左腦、右腦和小腦,三個必不可少。但如果每個模型你都要去開發(fā),就需要很多算力、數(shù)據(jù)和各方面的資源,開發(fā)速度也是一個問題。我們的目的不是說要超越所有機(jī)器人公司的模型,而是提升一些公司的機(jī)器人智能,而且我們目前的模型是比較全的。
騰訊意在取得具身智能前沿技術(shù),而非商業(yè)化
提問:騰訊一向?qū)ι虡I(yè)化謹(jǐn)慎,為什么在具身智能上商業(yè)化積極?
張正友:騰訊RoboticsX2018年年初成立,那時候是沒有商業(yè)化目的的。那時候都找不到一個能夠做機(jī)器人的硬件廠家。所以我們必須要自己從頭去組建硬件,全部都要做。
2023年下半年開始,整個行業(yè)有很大變化,因為GPT開始有很多機(jī)器人企業(yè)出來。我們現(xiàn)在的方向是通過跟第三方合作來幫助他們形成一個更完整的機(jī)器人產(chǎn)品,其實要區(qū)分產(chǎn)品化和商業(yè)化,商業(yè)化聽起來就是要賺錢,但我們不是以賺錢為目的的,我們希望我們的模型變成一個比較穩(wěn)定的產(chǎn)品,來賦能機(jī)器人這個行業(yè)。
提問:推出Tairos平臺后,騰訊自己的機(jī)器人產(chǎn)品還繼續(xù)開發(fā)嗎?
張正友:我們本來就沒有產(chǎn)品線,我們之前開發(fā)的機(jī)器人都是研究原型,無論是最早的機(jī)器狗Max、養(yǎng)老機(jī)器人小五,都是原型,都是為了研究和驗證。比如做養(yǎng)老機(jī)器人,是因為這是個很難的場景,里面的安全性、魯棒性挑戰(zhàn)都很大。做機(jī)器狗是為了探索地面不平的復(fù)雜環(huán)境。我們用比較難的場景驅(qū)動研發(fā),目的不是把它們變成一個產(chǎn)品或者商業(yè)化。
騰訊2024年展示的「養(yǎng)老機(jī)器人」小五。
我們更大的目標(biāo)是把機(jī)器人的智能水平和本體里的某些核心技術(shù),比如數(shù)據(jù)傳感器技術(shù)評估,把這些能力繼續(xù)往前推進(jìn)。假如一開始你就停留在了Max上,后面就會沒有精力去做其他東西。
提問:騰訊為什么不做雙足的人形機(jī)器人?
張正友:我不是對雙足人形機(jī)器人有什么仇恨,只是雙足人形這個形態(tài)已經(jīng)在那里了,你不需要花更大精力去思考,只需要去控制它就行了,這是其中一個思路。
另外一個思路是,我們?nèi)说碾p足是在幾百萬年進(jìn)化里產(chǎn)生的,是一個讓我們能夠在復(fù)雜環(huán)境里活下來的形態(tài),但今天我們的人居環(huán)境已經(jīng)跟以前不一樣,今天的人居環(huán)境里大部分都是平地,你沒必要操作效率很低的雙足。所以為什么我們?nèi)プ鯩ax,這個機(jī)器狗是既有輪子又有腿,它不是為了仿生,而是要去想有沒有更好的形態(tài)能夠高效地在人居環(huán)境中行動。我感興趣的是人居環(huán)境,不是去荒野,人居環(huán)境里是不是會有更高效、更理想、更佳的機(jī)器人形態(tài),這是我們要去探索的。
第三個原因是,假如我們以人形作為機(jī)器人的標(biāo)準(zhǔn),我們?nèi)藳]有進(jìn)化出一個屏幕出來,但機(jī)器人如果有一個屏幕,它在交互信息時會非???。用語言交互可能一分鐘智能講100個字,但用屏幕可能它一下子就可以在屏幕上呈現(xiàn)300個字,交互效率就會提升3倍。那你為什么不把現(xiàn)在的技術(shù)用到機(jī)器人上面?為什么一定要用語言去對話?
機(jī)器人的形態(tài)還有很多需要探索的。
提問:騰訊已經(jīng)在機(jī)器人領(lǐng)域探索了七八年,過程中也有很多階段性成果,但一直沒有像今天一樣做商業(yè)化或產(chǎn)品化,你們?nèi)绾闻袛嘁豁椉夹g(shù)是否可以商業(yè)化了?
張正友:現(xiàn)在這個時間點(diǎn)(開始產(chǎn)品化或商業(yè)化)可能跟整個行業(yè)的發(fā)展有比較大關(guān)系,8年以前,我們實驗室剛成立的時候,大家知道有哪家機(jī)器人公司?那個時候整個機(jī)器人行業(yè)都還處在上一個階段,主要做工業(yè)機(jī)器人的階段。當(dāng)時我們實驗室做的很多事情都是非常超前的。
不做硬件,是騰訊對合作機(jī)器人廠商的承諾。
從2023年開始,整個機(jī)器人行業(yè)發(fā)生變化,市場出現(xiàn)了大量機(jī)器人公司,尤其是本體公司,我們發(fā)現(xiàn)我們之前很多東西能夠逐漸用得上,在這個時間點(diǎn)上,我們考慮把過去的一些成果給產(chǎn)品化,更多還是來自于行業(yè)的需求。
但是我們不會放棄前沿技術(shù)的探索,還是會繼續(xù)往前推進(jìn),因為假如我們停留在眼前這個階段半年,感知模型、規(guī)劃模型或者感知行動模型就會落后,我們還要繼續(xù)往前推出更前沿的版本出來。
提問:騰訊是否會通過投資的方式促進(jìn)生態(tài)合作?
張正友:投資不是我管的,但是通過投資讓整個生態(tài)發(fā)展起來,這是最重要的。
提問:距離具身智能的iPhone時刻預(yù)計還有多久?
張正友:這個很難估計,我估計可能還要三五年。我2018年做的就是一個10年規(guī)劃。
提問:對于騰訊在機(jī)器人領(lǐng)域的角色,7年前你們在想機(jī)器人這個事的時候,跟今天的想法相似嗎?
張正友:那時候沒有(成為具身智能平臺)這樣的想法,那時候只是在考慮前沿技術(shù)的研究。就是說研究是不能被產(chǎn)品化去引導(dǎo)的,通過產(chǎn)品引導(dǎo)研究是做不成的,你的技術(shù)不可能成功。
外科圣手穿越農(nóng)家,買病秧子相公種田卻養(yǎng)成將軍
她拿起油燈放到地上,蹲下身子,下巴拱在膝蓋上看她的“相公”_。男人頭發(fā)雜亂,臟兮兮的,面上有血污,塵土,十分狼狽;但是他看起來很年輕,不過二十出頭的模樣,長眉入鬢,鼻梁英挺,閉著眼,睫毛很長,應(yīng)該是個不難看的男人_。也許是因為重病的原因,他臉上泛著不正常的紅色,嘴唇干裂,有絲絲血跡滲出__。他一身短打,破破爛爛 神醫(yī)農(nóng)女逆襲記,買病秧相公竟成將軍,種田路上笑料百出!今日推薦:《神醫(yī)農(nóng)女:買個相公來種田》作者:小m愚|——。點(diǎn)擊文末超鏈接開始觀看吧~第1801章番外之女帝賀姮(八)姮姮一聽,氣得肺都要炸——。她那么好看,老祖宗竟然說要把她扔了?“老祖宗,我是你親曾外孫女!您胳膊肘往外拐,欺負(fù)人-。我要告訴我母后還有呢?宅斗種田文,她買個病秧子相公,坐等成寡婦,賺個貞節(jié)牌坊橫著走