猜猜我是誰醫(yī)學(xué)版——神經(jīng)內(nèi)科診療
機器之心原創(chuàng)
作者:張倩
還記得那個會「功夫」的機器人嗎?
今年4月份,一個名叫「功夫boy」的機器人火出了圈,它的一招一式頗有練家子的味道。有意思的是,眼尖的觀眾還從中發(fā)現(xiàn)了馬保國獨創(chuàng)的「閃電五連鞭」。打那時起,我們就一直盼著能見到這款機器人。
沒想到,在3個月后的WAIC上,這個愿望實現(xiàn)了?,F(xiàn)場的「功夫boy」已經(jīng)進(jìn)行了全新升級,能夠完成「分鐘級」的武術(shù)表演,吸引了很多人圍觀。
更有趣的是,我們在論壇上還看到了另一個場景:這款功夫機器人與文生視頻的人物同步演示武術(shù)動作,勾勒出從一幅人工智能從虛擬存在走向物理世界的完整圖景
回到展區(qū),我們發(fā)現(xiàn)它還不是「一個人」來的,旁邊還有它的「兄弟姐妹」——一個個頭稍小、長相更可愛的機器人(TeleBotM1)和一個能讓機器人遠(yuǎn)程控制做出各種動作的遙操作系統(tǒng)。
在技術(shù)上,這些機器人很有代表性。
「功夫boy」能做出那些高難度動作,而且在保持速度的同時又不失平衡,證明它的「小腦」非常發(fā)達(dá),足以精確控制身體的每一個環(huán)節(jié),即使在機器人扎堆的WAIC現(xiàn)場,這種程度的控制也不多見。
小尺寸機器人則更考驗硬件研發(fā)能力,因為從外形上看,這顯然不是從宇樹等硬件廠商采購的標(biāo)準(zhǔn)本體。
遙操作系統(tǒng)學(xué)名叫「遠(yuǎn)程全身遙操作系統(tǒng)TeleHumos」,通常在參觀機器人數(shù)據(jù)生產(chǎn)車間的時候能見到。這個系統(tǒng)做得好不好直接關(guān)系到機器人智能水平的迭代速度,畢竟眾所周知,大部分具身智能廠商都卡在數(shù)據(jù)上。但從「駕駛艙」的豪華配置來看(上肢雙臂外骨骼,下肢全向行走平臺,天翼5G公里級通信,還帶力覺反饋),這應(yīng)該不止用于數(shù)據(jù)采集,有望使機器人在危險的場景中作業(yè),而人類只需要在舒適的地方遠(yuǎn)程遙操。
來逛展之前,我們對這些機器人背后的機構(gòu)——中國電信人工智能研究院(TeleAI)有所了解,知道他們由中國電信集團CTO、首席科學(xué)家、中國電信人工智能研究院(TeleAI)院長李學(xué)龍教授帶領(lǐng),在大小腦的研發(fā)上是走在前面的。但完整看下來之后,不得不感嘆一句:不愧是央企,技術(shù)棧還是太全面了。
再一想,其實他們的王牌優(yōu)勢——「通信」還沒有在現(xiàn)場完整展示,很容易被逛展的人忽略。但作為從「單機智能」邁向「群體智慧」的神經(jīng)系統(tǒng),通信的重要性在未來不言而喻。
說實話,單看這幾個展臺,就能感受到這家央企在機器人上的野心不小。那么問題來了,他們到底想做什么?深挖之后,我們發(fā)現(xiàn)了答案。
TeleAI——具身智能賽道的「全能選手」
首先上結(jié)論:和很多聚焦于單個技術(shù)方向的具身智能公司不同,TeleAI確實有全棧自研的打算,并且已經(jīng)做得非常不錯了。
他們做出這個選擇也不難理解。從整個行業(yè)的發(fā)展軌跡來看,虛擬和現(xiàn)實正結(jié)合得愈發(fā)緊密。之前做大模型的公司很多都不再甘心只困在屏幕后面,而是想要一個「身體」。這一方面是為了產(chǎn)生更大影響,另一方面也是智能進(jìn)階的新突破口。與此同時,做機器人的廠商很多也不再甘心只是做硬件,而是想要給自己的機器人配上大小腦,畢竟誰也不想永遠(yuǎn)當(dāng)代工廠,光有軀殼沒有靈魂的機器人在市場上也很難有差異化競爭力。這樣一來,雙方都在向?qū)Ψ降念I(lǐng)域滲透,全棧技術(shù)幾乎成了實力玩家的理想選擇。
更關(guān)鍵的是,真正復(fù)雜的應(yīng)用場景下,各個技術(shù)模塊必須深度協(xié)同才能發(fā)揮作用,簡單的技術(shù)拼湊很難應(yīng)對火場救援、精密操作這些高難度任務(wù)。
而且,作為一家央企,TeleAI本就承擔(dān)著搶占科技制高點、提升國有企業(yè)國際競爭力、推動國有企業(yè)產(chǎn)業(yè)升級的重任,因此全棧自研對于別人來說是「選擇題」,對于他們來說卻是「必答題」。而只有把必答題都做好,央企才算真正兌現(xiàn)了國家賦予他們的時代使命。
硬件、軟件、數(shù)據(jù)……
TeleAI展開了全方位的技術(shù)探索
那TeleAI在這些必答題上答得怎么樣了呢?從公開資料和WAIC現(xiàn)場的介紹中,我們發(fā)現(xiàn)了很多「亮點」。這些亮點不止增強了TeleAI的競爭力,還為整個具身智能行業(yè)貢獻(xiàn)了新的思路。
自研、不受限的硬件
現(xiàn)在做機器人的公司很多,但真正自研硬件的并不多,大部分都是從宇樹、波士頓動力這些廠商采購標(biāo)準(zhǔn)本體,然后在上面跑自己的算法。這種做法當(dāng)然有好處,省時省力,能快速出demo。但問題是,你永遠(yuǎn)受限于別人硬件的能力上限,想要的功能實現(xiàn)不了,算法再優(yōu)秀也白搭。
TeleAI顯然不想走這條路。從現(xiàn)場展示的情況來看,他們在硬件上下的功夫一點也不比軟件少。
如我們所料,展區(qū)的小機器人確實不是采購的標(biāo)準(zhǔn)本體,而是從算法到硬件都走了自研路線。從現(xiàn)場來看,它能穩(wěn)穩(wěn)地站立和行走,因為內(nèi)部搭載了自研的多電機協(xié)同驅(qū)動控制嵌入式硬件系統(tǒng)和運動控制算法。不僅如此,它的上肢還支持個性化定制。對于研發(fā)人員來說,這應(yīng)該是一次非常難得的體驗,因為你想要什么功能就能直接在硬件層面實現(xiàn),而不用遷就別人的設(shè)計思路。更重要的是,這些在小尺寸機器人上積累的經(jīng)驗可以很自然地擴展到TeleAI即將推出的全尺寸人形機器人上。
為了讓全尺寸機器人更加靈活,TeleAI還自研了一個關(guān)鍵部件——六自由度并聯(lián)腰部關(guān)節(jié)。這個聽起來很技術(shù)的名字背后,其實解決的是一個很實際的問題:怎么讓機器人在顛簸的路面上也能平穩(wěn)行走,同時還能完成需要上肢配合的精細(xì)任務(wù),比如端一杯水而不灑出來。他們的方案是在腰部設(shè)計一個具有三自由度轉(zhuǎn)動和三自由度移動的全向防搖隔震結(jié)構(gòu),有效降低上下肢之間的相互干擾,保證行走和操作的誤差隔離。
除了機器人本體,TeleAI在現(xiàn)場展示的全身遙操作硬件平臺也很有技術(shù)含量。說到遙操作,它的核心是將操作者的動作同步傳遞給遠(yuǎn)端設(shè)備。它既能給真實場景部署機器人提供安全底線,又能在此過程中收集真實世界的數(shù)據(jù)。這其實是通往自主操作路上一個非常重要的中間步驟,就像自動駕駛場景中的「安全員」。如果遙操作系統(tǒng)足夠完善,自主操作所需的數(shù)據(jù)飛輪就能很快建立起來。
但現(xiàn)實是,大多數(shù)遙操作系統(tǒng)還做不到真正的「遙」。受限于通信基礎(chǔ)設(shè)施,它們基本只能在室內(nèi)近距離操作,這就大大限制了應(yīng)用場景。TeleAI的創(chuàng)新在于利用自家的5G專網(wǎng)和智傳網(wǎng)(將AI與通信融合起來的一項基礎(chǔ)設(shè)施)技術(shù),把遙操作的工作范圍擴展到了公里級。這意味著什么?在火場、沒有氧氣的機房這些危險環(huán)境中,機器人可以作為人類的「替身」去完成任務(wù),而操作員可以在安全距離之外進(jìn)行控制。此外,它還能幫忙收集一些實驗室很難收集到的負(fù)樣本。
從硬件層面來看,TeleAI的思路很清晰:與其像大多數(shù)公司那樣采購標(biāo)準(zhǔn)本體然后跑自己的算法,不如從底層開始自研。這種做法的價值不僅僅是為了差異化,更重要的是能為國內(nèi)機器人硬件行業(yè)帶來新的技術(shù)思路。軟硬件一體化往往能通過雙方的相互迭代和配合,催生意想不到的創(chuàng)新。
大小腦協(xié)同的軟件架構(gòu)
如果說硬件是機器人的「軀殼」,那么大腦和小腦就是它的「靈魂」。不過在軟件這塊,行業(yè)面臨的挑戰(zhàn)和硬件端又不太一樣。
先說大腦。現(xiàn)在做機器人大腦的公司都有一個共同的痛點——數(shù)據(jù)。訓(xùn)練一個聰明的機器人大腦需要海量的操作數(shù)據(jù),但問題是,大家都在用自家的機器人采集數(shù)據(jù),結(jié)果就是數(shù)據(jù)和特定硬件強綁定了。用A家靈巧手采集的數(shù)據(jù),訓(xùn)練出的模型很難直接用在B家的夾爪上;即使都是做抓取,不同的機器人本體之間也很難共享數(shù)據(jù)。這就造成了一個尷尬的局面:雖然整個行業(yè)的數(shù)據(jù)總量看起來不少,但分散到每個具體的機器人平臺上,又變得很稀缺了。
這種數(shù)據(jù)孤島不僅限制了單個公司的發(fā)展速度,更阻礙了通用操作模型的進(jìn)步。畢竟,如果每家公司都只能用自己那點數(shù)據(jù)訓(xùn)練模型,那距離真正智能的機器人大腦還有很長的路要走。
TeleAI顯然意識到了這個問題,他們的解決思路是:通過跨本體VLA大模型,在統(tǒng)一的隱空間內(nèi),對齊不同機器人本體的動作空間。簡單來說,不管你的機器人有20個自由度,還是只有7個,這個模型都能找到一種通用的「語言」來描述它們的動作。
基于這種對齊,模型在訓(xùn)練時就能利用所有不同來源的數(shù)據(jù),而不再局限于特定硬件。這樣帶來的效果是顯著的:當(dāng)需要將模型部署到一個新的機器人平臺時,僅需要極少量的樣本數(shù)據(jù)進(jìn)行微調(diào),就能實現(xiàn)高效的泛化。以下視頻中「分鐘級」廚房長序列操作任務(wù)的執(zhí)行就是這種泛化性的直觀體現(xiàn)。
再來說小腦。小腦的問題非常直觀——很多機器人壓根站不穩(wěn),更別說做復(fù)雜動作了。
你可能還記得機器人馬拉松上那些「花式摔倒」的名場面,很多都是小腦出了問題?,F(xiàn)在市面上的機器人,要么只會單一的走路步態(tài),遇到不平的地面就懵了;要么雖然能做一些炫酷動作,但穩(wěn)定性堪憂,動不動就失去平衡。更關(guān)鍵的是,很多機器人的運動控制還停留在預(yù)設(shè)軌跡的層面,缺乏對環(huán)境的感知和自適應(yīng)能力。
這種狀況的根本原因在于,很多團隊把小腦當(dāng)成了一個單純的控制問題來解決,用傳統(tǒng)的控制算法讓機器人「按部就班」地執(zhí)行動作。但真實環(huán)境遠(yuǎn)比實驗室復(fù)雜,地面有高低起伏,還可能有各種突發(fā)狀況,這時候僵化的控制策略就暴露出了局限性。
TeleAI在小腦這塊的思路是:既然真實環(huán)境這么復(fù)雜,那就讓機器人學(xué)會更多種步態(tài),然后根據(jù)實際情況靈活切換。他們開發(fā)的統(tǒng)一多步態(tài)混合專家模型讓機器人掌握了走、跑、跳、蹲、爬等超過10種步態(tài)能力,更重要的是,機器人能利用視覺傳感器感知地形,然后從這個「步態(tài)庫」中自主選擇最合適的方式來應(yīng)對不同的地面條件。
但TeleAI的野心顯然不止于此。他們還向武術(shù)、舞蹈這些高難度仿人運動發(fā)起了挑戰(zhàn),構(gòu)建了高動態(tài)具身小腦。這塊的技術(shù)難度要比普通的行走控制高出不少,因為武術(shù)動作不僅要求精確,還要保持連貫性和穩(wěn)定性。
他們的解決方案有兩個核心創(chuàng)新:一是通過物理約束驅(qū)動的動作預(yù)處理,確保從視頻中提取的動作對機器人來說是物理可行且穩(wěn)定的;二是采用了一種動態(tài)調(diào)整精度的自適應(yīng)跟蹤機制,讓機器人先學(xué)習(xí)長段動作的基本軌跡,再逐步提高模仿的精度。這種由粗到精的學(xué)習(xí)方式,既保證了訓(xùn)練的穩(wěn)定性,又確保了最終動作的質(zhì)量。
正是通過這些技術(shù),TeleAI成功讓機器人實現(xiàn)了分鐘級的長序列武術(shù)表演,動作兼具穩(wěn)定性和表現(xiàn)力。同時,他們還開源了這項研究的代碼,為整個行業(yè)貢獻(xiàn)了高效的小腦方案。
TeleAI的高動態(tài)仿人運動相關(guān)研究——KungfuBot。開源地址:https://github.com/TeleHuman/PBHC
TeleAI近期將這項工作進(jìn)行了升級,首先支持了文生視頻接口,由星辰大模型生成人類復(fù)雜動作視頻,隨后由機器人模仿人類行為,實現(xiàn)文生視頻人物和機器人高度同步;其次擴展了武術(shù)動作的長度,首次實現(xiàn)人形機器人「分鐘級」武術(shù)動作復(fù)刻
當(dāng)然,有了聰明的大腦和靈活的小腦還不夠,關(guān)鍵是要讓它們能夠有效協(xié)同。我們發(fā)現(xiàn),TeleAI在大小腦協(xié)同方向也做了一些工作,比如能讓機器人在搖晃的公交車上刷卡的全身協(xié)同系統(tǒng)——ALMI。他們還同步開源了超80000條高質(zhì)量全身協(xié)同數(shù)據(jù),在算法和數(shù)據(jù)方面都為行業(yè)做出了貢獻(xiàn)。開源地址:https://github.com/TeleHuman/ALMI-Open
高效、貼近現(xiàn)實的具身智能數(shù)據(jù)平臺
說完大腦小腦,還有一個更根本的問題需要解決——數(shù)據(jù),各種數(shù)據(jù)。這可能是整個具身智能行業(yè)最頭疼的問題之一。
和做大模型的公司不同,機器人公司沒法直接從互聯(lián)網(wǎng)上「薅」數(shù)據(jù)。你想讓機器人學(xué)會抓杯子,就得真的找個機器人去抓成千上萬次。
很多公司想到了用仿真來解決這個問題,在虛擬環(huán)境中讓機器人「練習(xí)」千萬次,然后再遷移到現(xiàn)實中。但仿真環(huán)境再逼真,和真實世界還是有差距的。這個Sim2RealGap幾乎是每個做機器人的公司都會遇到的攔路虎
更麻煩的是,即使解決了仿真問題,生成數(shù)據(jù)的效率也是個大問題。很多公司的仿真平臺還停留在手工搭建場景、手動設(shè)計任務(wù)的階段,這種方式根本無法滿足大規(guī)模訓(xùn)練的數(shù)據(jù)需求。
在這個問題上,TeleAI的思路很有參考價值,那就是讓仿真環(huán)境盡可能貼近現(xiàn)實,同時用AI來自動化生成數(shù)據(jù)
具體來說,他們在自己的數(shù)據(jù)平臺上構(gòu)建了一個逼真的虛擬世界。平臺引入了真實世界的掃描資產(chǎn),并通過3D高速點云技術(shù),在重建場景時保留豐富的幾何與語義信息。針對鉸鏈物體等復(fù)雜資產(chǎn),平臺會進(jìn)行物理屬性的推理和重建,以滿足物理穩(wěn)定性和適應(yīng)性的要求。
在搭建好虛擬場景后,一個由大模型驅(qū)動的「數(shù)據(jù)采集智能體」便開始在其中高效地工作。這個智能體可以自動化地執(zhí)行一系列任務(wù),包括生成多樣化的操作任務(wù)、推理物體的功能、生成空間約束并自動規(guī)劃生成機器人的運動軌跡。
開源地址:https://github.com/TeleHuman/HumanoidGen
為了讓仿真數(shù)據(jù)能夠更好地指導(dǎo)現(xiàn)實,平臺還引入了「世界模型」作為核心驅(qū)動。世界模型本質(zhì)上是一個可學(xué)習(xí)的環(huán)境模擬器,它能讓智能體在其中理解環(huán)境動態(tài)、預(yù)測未來狀態(tài),甚至生成想象中的交互軌跡,從而擺脫對真實環(huán)境數(shù)據(jù)的依賴。
TeleAI團隊提出的兩階段雙臂軌跡預(yù)測流程,通過微調(diào)文本到視頻模型來預(yù)測機器人軌跡,并利用擴散策略生成動作,以應(yīng)對通用性和數(shù)據(jù)稀缺性的挑戰(zhàn)。
這個虛實結(jié)合的數(shù)據(jù)平臺大大加快了TeleAI的研發(fā)進(jìn)度,前面提到的小尺寸機器人的導(dǎo)航能力就是依靠該平臺合成的數(shù)據(jù)訓(xùn)練出來的。
而且,這個數(shù)據(jù)平臺其實也體現(xiàn)了TeleAI全棧技術(shù)思路的一致性。無論是前面提到的硬件自研,還是大腦小腦的協(xié)同設(shè)計,背后都有一個共同的邏輯——掌握核心環(huán)節(jié)的主動權(quán)。數(shù)據(jù)作為AI的「燃料」,自然也不能例外。當(dāng)別人還在為數(shù)據(jù)稀缺發(fā)愁時,他們已經(jīng)能夠自動化、規(guī)模化地生產(chǎn)高質(zhì)量訓(xùn)練數(shù)據(jù)了。
從單機到協(xié)作
TeleAI的機器人不是「孤島」
有了這些技術(shù)積累,一個新的問題浮出水面:機器人要真正走向?qū)嵱?,光靠單機智能夠嗎
想象一下這樣的場景:機器人需要進(jìn)入火場救援,或者在核輻射環(huán)境中執(zhí)行任務(wù)。這些地方人類無法直接進(jìn)入,但任務(wù)又極其復(fù)雜,需要機器人具備強大的感知、決策和操作能力。問題來了——前面提到的那些先進(jìn)技術(shù),無論是跨本體VLA大模型還是高動態(tài)具身小腦,都需要強大的算力支撐。但機器人作為端側(cè)設(shè)備,不可能背著一臺服務(wù)器到處跑。
更現(xiàn)實的挑戰(zhàn)是,這些復(fù)雜環(huán)境下的任務(wù)往往變化多端,單靠事先訓(xùn)練好的模型很難應(yīng)對所有突發(fā)情況。你需要云端的大模型實時分析情況、制定策略,然后傳回給機器人執(zhí)行。但這就涉及到網(wǎng)絡(luò)傳輸問題了——高清視頻、各種傳感器數(shù)據(jù)需要實時上傳,控制指令需要毫秒級下發(fā),任何延遲都可能導(dǎo)致任務(wù)失敗甚至安全事故。
從這個角度來看,前面講的那些技術(shù)——無論大腦小腦多聰明、硬件多先進(jìn)——如果被困在單機模式下,能發(fā)揮的作用始終有限。真正的突破在于讓機器人不再是一個「孤島」,而是整個智能網(wǎng)絡(luò)中的一個節(jié)點。
正是基于這樣的思考,TeleAI在機器人技術(shù)之外,還在同步布局和研究一個很重要的方向——智傳網(wǎng)(AIFlow)。簡單來說,這是一套專門為AI應(yīng)用設(shè)計的網(wǎng)絡(luò)架構(gòu),能夠讓智能能力在「端、邊、云」之間像數(shù)據(jù)一樣自由流動。
對機器人而言,這意味著什么?復(fù)雜的推理任務(wù)可以交給云端的大模型處理,實時性要求高的控制任務(wù)可能在邊緣側(cè)完成,而機器人本體只需要專注于執(zhí)行層面的工作。更關(guān)鍵的是,基于5G專網(wǎng)的通信能力,整個過程的延遲可以控制到極低,完全滿足實時操控的需求。
這就是為什么TeleAI能夠?qū)崿F(xiàn)公里級的遙操作——他們背后有一張能夠支撐實時智能傳輸?shù)木W(wǎng)絡(luò)。
這種端邊云協(xié)同不僅解決了算力分配問題,還帶來了意想不到的好處。比如,多個機器人可以共享同一個云端「大腦」的計算資源,一個機器人遇到的新情況可以快速共享給其他機器人學(xué)習(xí)。原本相互獨立的機器人個體,變成了一個能夠協(xié)同作戰(zhàn)的智能網(wǎng)絡(luò)。
從技術(shù)發(fā)展的角度來看,這種思路其實很符合當(dāng)下AI領(lǐng)域的整體趨勢——從單點突破走向系統(tǒng)協(xié)同。TeleAI的智傳網(wǎng)技術(shù),本質(zhì)上是為具身智能提供了一個更大的「舞臺」,讓機器人的智能上限不再受制于本體的物理限制。這種將AI、具身智能與通信網(wǎng)絡(luò)深度融合的能力是他們的獨特優(yōu)勢。
央企進(jìn)軍具身智能的「另一種打法」
當(dāng)我們再次看到「功夫boy」行云流水般的武術(shù)表演時,或許應(yīng)該透過現(xiàn)象看本質(zhì)。這不僅僅是一場技術(shù)秀,更是中國具身智能產(chǎn)業(yè)厚積薄發(fā)的一個縮影。
從實驗室的算法研究,到硬件平臺的自主研發(fā),再到數(shù)據(jù)、算力、通信等基礎(chǔ)設(shè)施的協(xié)同,TeleAI正在證明一件事:具身智能的未來,不在于單打獨斗的技術(shù)突破,而在于生態(tài)級的協(xié)同創(chuàng)新。因此,雖然他們選擇的技術(shù)路徑投入更大、周期更長,但一旦形成閉環(huán),便能積蓄起無與倫比的長期發(fā)展動能。
在整個具身智能行業(yè)中,TeleAI也是最適合走這條長期路線的團隊,因為中國電信本身有很多現(xiàn)成的場景,需要借助具身智能去實現(xiàn)無人化、自動化,例如算力中心的自動化巡檢、運維、部件更換、清潔等。所以只要把能力搭建起來,TeleAI的機器人就有很多場景可以去部署。
長期來看,作為央企旗下的實驗室,TeleAI全棧自研能力的提升也是國內(nèi)具身智能行業(yè)自主能力的保障——他們在關(guān)鍵節(jié)點提供可控備份,并向產(chǎn)業(yè)鏈持續(xù)輸送可復(fù)用的技術(shù)模塊。
這種深度整合的發(fā)展路徑,或許正是中國在全球具身智能競賽中最大的差異化優(yōu)勢。當(dāng)技術(shù)能力與應(yīng)用場景、基礎(chǔ)設(shè)施形成有機統(tǒng)一時,真正的產(chǎn)業(yè)變革才會到來。
文中視頻鏈接:https://mp.weixin.qq.com/s/gFuqLwF1CW4JJN9XDDim6g
天才運動員林飛 正遭遇著前所未有的困難, 失利的陰影, 意外的受傷, 隊友不和的傳聞, 甚至還有惡意的人身攻擊, 如同在煉獄行走一般, 但年輕的林飛說著 無所謂, 我會出手