新智元報(bào)道
編輯部
【新智元導(dǎo)讀】如今的具身智能,早已爆紅AI圈。數(shù)據(jù)瓶頸、難以多場(chǎng)景泛化等難題,一直困擾著業(yè)界的玩家們。就在WAIC上,全新具身智能平臺(tái)「悟能」登場(chǎng)了。它以世界模型為引擎,能為機(jī)器人提供強(qiáng)大感知、導(dǎo)航、多模態(tài)交互能力。
WAIC上,各家機(jī)器人的火爆,各位已經(jīng)都見證過了。
不過現(xiàn)在行業(yè)遭遇的一個(gè)重大瓶頸,就是急缺數(shù)據(jù)、訓(xùn)練效率低,讓許多機(jī)器人的性能暴漲被卡了脖子。
這樣就導(dǎo)致目前絕大多數(shù)具身智能機(jī)器人,自主解決問題的能力還比較弱。
怎么破?商湯有解。
昨天的WAIC上,商湯的具身智能平臺(tái)——悟能正式亮相!這是一場(chǎng)真正的炸裂革命。
你只需用一句自然語言描述場(chǎng)景,它就能為具身智能的訓(xùn)練生成符合物理規(guī)則、多視角統(tǒng)一、真實(shí)世界還原度極高的多視角視頻。
也就是說,商湯用自己擅長(zhǎng)的世界模型,破解了仿真數(shù)據(jù)輸出的難題,賦能各種場(chǎng)景的機(jī)器人(和機(jī)器狗)。
想象一下,你雙手緊握方向盤,腳踩油門,身臨其境地穿梭在城市街頭,光影變幻,七個(gè)攝像頭為你構(gòu)建出一個(gè)無比真實(shí)的世界。
別誤會(huì),這不是你在玩《極品飛車》,而是你在和AI一起「開悟」!
接下來的AI,將不再是工具,而是合作者、探索者、創(chuàng)造者。此刻,就是我們一同駛向未來的起點(diǎn)。
商湯「悟能」平臺(tái),為什么能為具身智能做到如此不可思議的賦能?讓我們來仔細(xì)看看。
四大功能,讓機(jī)器人性能再進(jìn)一步
首先,機(jī)器人的一個(gè)核心問題,就是大腦VLA。很多行業(yè)的翹楚,都在這個(gè)方向推出了自己的模型。
而對(duì)于這些領(lǐng)域,商湯既有的能力感知和多模態(tài),就有極大的使用空間。
比如,機(jī)器人的感知、導(dǎo)航、交互,以及世界模型,都能助力于機(jī)器人構(gòu)造很好的VLA以及跟世界交互的可能性。
另外,商湯的大裝置,還能給底層提供端側(cè)和云側(cè)的核心方案。
具體來說,這個(gè)平臺(tái)提供了以下功能。
感知
做視覺感知,是商湯的一大強(qiáng)項(xiàng)。
不管是機(jī)器狗還是機(jī)器人都是帶視覺的,一個(gè)天然視覺感知,就是對(duì)世界萬物做識(shí)別和理解。
左邊為機(jī)器狗的視角,右邊為機(jī)器人的視角
而商湯在這部分的視覺能力,恰好就能完全嵌入到機(jī)器人的核心芯片當(dāng)中,因此,在端側(cè)就能處理好這種感知能力。
同時(shí),它們也被賦能去識(shí)別場(chǎng)景中的所有物件、行人。
總之,如果在機(jī)器人行業(yè)中需要做感知,用商湯平臺(tái)就再合適不過了。它適配了大量的芯片,包括提供云和端側(cè)處理的能力。
導(dǎo)航
平臺(tái)的第二大能力,就是視覺導(dǎo)航。
目前在行業(yè)中,雖然已經(jīng)有了全自主的無人駕駛車,卻還并未出現(xiàn)全自主自動(dòng)駕駛的機(jī)器狗和機(jī)器人。
而商湯絕影,恰巧就在做全自主視覺的無人駕駛。
此前,這個(gè)團(tuán)隊(duì)已經(jīng)賦能了許多車企,做端到端的智能駕駛。
這些同樣的模塊,也可以去適配到機(jī)器狗和機(jī)器人身上。
比如,對(duì)機(jī)器狗來說,導(dǎo)航就是找到一個(gè)非車道以外的、人能行駛的路徑,規(guī)劃好路徑以后,來做好避障即可。
因此,同樣的能力可以賦能各式各樣不同的基礎(chǔ)硬件。
下面展示的,便是機(jī)器狗行進(jìn)的過程中,「悟能」實(shí)時(shí)為它做出的路徑規(guī)劃。
交互
平臺(tái)的第三大能力,就是交互工具。
現(xiàn)場(chǎng),商湯科技董事長(zhǎng)兼CEO徐立為我們舉了一個(gè)很有意思的例子——用AI生成《長(zhǎng)安的荔枝》的PPT,然后讓機(jī)器人給我們來做講解。
這一次,機(jī)器人被調(diào)適得非常幽默,可以讓我們深刻感受到,它已經(jīng)從一個(gè)交互工具,演變成了一個(gè)交互伙伴。
只見這個(gè)機(jī)器人繪聲繪色地做起了講解,頗具個(gè)人風(fēng)格,期間還不斷爆梗:「難度大概相當(dāng)于讓你拿小靈通打王者榮耀,想想就知道有多虐!」
「那咱們來算一筆賬,按唐朝的銀子換算,一次運(yùn)輸?shù)没ǖ艚裉斓?000萬人民幣!」
注意,在這個(gè)過程中,機(jī)器人是自己翻PPT的——它很清楚地知道,自己講解的內(nèi)容是在哪一頁。甚至如果我們對(duì)它提問,它還會(huì)自己翻回去。
甚至在嘈雜環(huán)境中,它也不怕被打斷。即使中間你問它問題,它在講解完后,還會(huì)記得自己的主線任務(wù),繼續(xù)往下講。
整個(gè)過程中都體現(xiàn)出,這個(gè)機(jī)器人有全局記憶的能力。
甚至有趣的是,上面這個(gè)功能,還可以用到機(jī)器狗上,對(duì)于形態(tài)并沒有限制。
從「開悟」,到「悟能」具身世界模型
現(xiàn)在,商湯「開悟」世界模型,已經(jīng)可以在車?yán)锷啥嘁暯且曨l。
這一點(diǎn),可以說意義重大。原因在于,在虛擬世界里要生成很多數(shù)據(jù)去做交互,最關(guān)鍵的就是,這些數(shù)據(jù)在未來可能就是強(qiáng)化學(xué)習(xí)的一個(gè)基礎(chǔ)。
而商湯在自動(dòng)駕駛上,就已經(jīng)做到了用一句自然語言去生成一個(gè)七視角攝像頭的視頻。
可以看到,它具有很好的空間一致性。(車開過不同攝像頭時(shí),它幾何位置的對(duì)應(yīng),完全符合物理對(duì)空間世界的理解。)
而且,它在時(shí)序上也做到了一致性。
比如在這臺(tái)車行駛的過程中,幾次把車牌號(hào)拉出來一看,都能發(fā)現(xiàn)這個(gè)世界模型在時(shí)序上的生成是一致的。
甚至,世界模型還能做編輯。在這個(gè)過程中,可以實(shí)時(shí)做編輯替換,甚至是插入、刪除現(xiàn)實(shí)中的車。
這部分新生成的數(shù)據(jù),可以為AI進(jìn)入現(xiàn)實(shí)世界,提供閉環(huán)交互訓(xùn)練的解決方案。
比如在自動(dòng)駕駛中,「加塞場(chǎng)景」就是典型的長(zhǎng)尾場(chǎng)景,真實(shí)數(shù)據(jù)極其稀缺,而開悟世界模型就提供了高質(zhì)量的多場(chǎng)景數(shù)據(jù)(光照、天氣、道路結(jié)構(gòu))。
最后將所有視角的視頻結(jié)合,就仿佛在真實(shí)場(chǎng)景中開車一樣。這種交互的真實(shí)感與實(shí)時(shí)性,可以說是「極品飛車」現(xiàn)實(shí)版了。
如今,商湯進(jìn)一步把「開悟」擴(kuò)展到了具身智能領(lǐng)域,并賦予了它一個(gè)全新的名字——「開悟智能」,簡(jiǎn)稱「悟能」。
「悟能」具身世界模型,可以通過「人、物、場(chǎng)」,構(gòu)建一個(gè)4D的真實(shí)世界。
比如下面是兩張初始視角圖。給出一張具身關(guān)節(jié)模型,對(duì)它下指令「在廚房區(qū)域的架子上找東西」,它就可以生成如下的視頻,生成了關(guān)節(jié)模型的連續(xù)位姿。
同樣,如果下指令「進(jìn)入娛樂室,向右轉(zhuǎn),然后打開通往院子的門」,模型也能立刻生成下面的視頻和連續(xù)位姿。
這些具身世界模型生成的內(nèi)容,因?yàn)榫哂袝r(shí)空一致性,就可以從多個(gè)角度去觀察。
比如動(dòng)作骨架正在完成的,是一個(gè)手動(dòng)切黃瓜的指令,而接下來,它就能同時(shí)生成一段「第一人稱」和「第三人稱」視角的機(jī)器人切黃瓜視頻。
或者,一段機(jī)器人在白天的公園里跳躍的視頻。同樣,第一、第三人稱視角都一起生成出來了。
為什么說,第一視角和第三視角相結(jié)合的世界模型如此重要呢?
要知道,機(jī)器人并不天然擁有人的直覺,也缺乏對(duì)世界的理解。而「悟能」讓機(jī)器人同時(shí)擁有第一視角和第三視角相結(jié)合的世界模型后,相當(dāng)于給它開了一個(gè)外掛。
這樣,它不僅可以通過第一視角,通過傳感器「感知」世界,捕捉到實(shí)時(shí)環(huán)境信息;還能通過第三視角開啟「上帝視角」,看到人類的肢體、骨骼是如何精妙配合、完成每個(gè)動(dòng)作的,相當(dāng)于擁有人類動(dòng)作的參考指南。
二者結(jié)合后,我們就能知道機(jī)器人看到了什么,應(yīng)該做什么動(dòng)作,由此,機(jī)器人真正像人一樣學(xué)會(huì)了舉一反三,能做更自然流暢的交互,可以做端到端的VLA了。
在以往,要靠數(shù)據(jù)采集生成這樣的視頻,需要花費(fèi)大量的時(shí)間和精力,如今卻可以飛速完成。
甚至,這個(gè)世界模型還能生成不同相機(jī)位姿的視頻,因此,我們可以不限位置,把相機(jī)放在機(jī)器人的任何位置,來模擬生成符合3D關(guān)系的4D世界真實(shí)視頻。
可以看到,以上這幾大功能,可以讓「悟能」平臺(tái)賦能各式各樣的機(jī)器人企業(yè),讓機(jī)器人和現(xiàn)實(shí)世界交互。
比如機(jī)器狗從此不會(huì)只是巡邏和跳舞,現(xiàn)在它可以陪著小孩放學(xué)、陪著老人散步,不僅是守護(hù)者,更是貼心的陪伴者。
因?yàn)榭梢詫?dǎo)航去任何地方,它就能知道你要去哪兒,會(huì)在路上替你規(guī)避危險(xiǎn)、應(yīng)對(duì)突發(fā),甚至還能幫你拎東西。
可以說,AI演進(jìn)的十年歷程,就是AI從感知世界,到理解世界,最終具備與真實(shí)世界交互的能力。
除了「悟能」平臺(tái),商湯還會(huì)構(gòu)建更強(qiáng)的世界模型與空間智能,推動(dòng)AI邁入真正與物理世界交互的時(shí)代,實(shí)在是太令人期待了!
具身智能爆火,卻卡在了數(shù)據(jù)上
具身智能賽道,現(xiàn)已成為全球AI核心競(jìng)爭(zhēng)點(diǎn)之一。
不論是谷歌、英偉達(dá)等科技大廠,還是諸如Figure、SkilledAI等初創(chuàng)黑馬,對(duì)此不斷加碼研發(fā),沖刺萬億級(jí)市場(chǎng)。
然而,具身智能機(jī)器人在應(yīng)對(duì)多變的現(xiàn)實(shí)世界,仍面臨著諸多瓶頸。
這幾天,英偉達(dá)杰出科學(xué)家JimFan對(duì)此也吐槽了一番——機(jī)器人都會(huì)跑酷和跳舞了,怎么還不能幫我遛狗呢?
他這一現(xiàn)象稱之為,機(jī)器人領(lǐng)域的mini版「莫拉維克悖論」。
這恰恰說明了,具身智能領(lǐng)域的發(fā)展,還有很多問題等待被攻克。
傳統(tǒng)機(jī)器人通常被設(shè)計(jì)為「專才」,針對(duì)特定人任務(wù)進(jìn)行優(yōu)化,缺乏應(yīng)對(duì)多變?nèi)蝿?wù)的靈活性。
舉個(gè)栗子,送餐機(jī)器人更擅長(zhǎng)在餐廳環(huán)境中導(dǎo)航和遞送食物,卻無法在工業(yè)生產(chǎn)線上工作。
這種「單一技能」的模式源于機(jī)器人硬件和算法高度定制化,導(dǎo)致不同本體難以實(shí)現(xiàn)任務(wù)遷移,即我們常說的「本體泛化」。
若要解決這一挑戰(zhàn),核心便在于設(shè)計(jì)一個(gè)通用的「智能大腦」。
由此一來,即便是不同形態(tài)的機(jī)器人,都能共享一套算法,適應(yīng)多樣化的硬件平臺(tái)和任務(wù)需求。
有了本體泛化還不夠,具身智能如何實(shí)現(xiàn)「任務(wù)泛化」,是決定其能力的上限。
若要完成「冰箱取食材—切菜—烹飪—端上桌」的任務(wù),長(zhǎng)序列規(guī)劃、跨模態(tài)理解,以及實(shí)時(shí)糾錯(cuò)的能力必不可少。
人形機(jī)器人Neo
當(dāng)前難題是,有時(shí)因?yàn)楣饩€變化、多步任務(wù)缺少中間狀態(tài)等,機(jī)器人就會(huì)翻車。
此外,具身智能發(fā)展另一大瓶頸,也是全行業(yè)亟待解決的問題——如何實(shí)現(xiàn)場(chǎng)景泛化。
它要求機(jī)器人在不同環(huán)境中,都能準(zhǔn)確感知、理解,并于物理世界交互。然而,場(chǎng)景泛化的前提,必須有高質(zhì)量、多模態(tài)的數(shù)據(jù)加持。
如何獲取這些數(shù)據(jù)?生成合成數(shù)據(jù),成為了具身智能「ScalingLaw」的救命稻草。
為了應(yīng)對(duì)上述瓶頸,業(yè)界逐漸探索出多種技術(shù)路線,但尚未形成統(tǒng)一的標(biāo)準(zhǔn)。
以谷歌、Figure、PhysicalIntelligence為代表,他們主攻VLA(視覺-語言-動(dòng)作)模型,通過語言和圖像輸入,直接生成動(dòng)作。
另一種是「大小腦」架構(gòu),將規(guī)劃和執(zhí)行分離。
最后一種便是常見的「世界模型」,目標(biāo)就是讓機(jī)器人能夠像人類一樣「理解世界」。
無論是哪種技術(shù)路線,皆需要高質(zhì)量多模數(shù)據(jù)為支撐。
這一次,商湯WAIC現(xiàn)場(chǎng)帶來的「悟能」具身智能平臺(tái),是一個(gè)具備全棧能力的AI大腦。
不論是在感知、視覺導(dǎo)航,還是交互、生成多樣高質(zhì)數(shù)據(jù)上,「悟能」為機(jī)器人行業(yè)提供了全面的賦能。
做這件事的人,為什么是商湯?
AI刻在DNA,商湯在下一盤大棋
作為計(jì)算機(jī)領(lǐng)域的先行者,商湯的入局并非偶然,而是技術(shù)基因和戰(zhàn)略眼光的必然延伸。
多年來,這家AI公司在多模態(tài)大模型、算力基礎(chǔ)設(shè)施,以及產(chǎn)業(yè)生態(tài)各方面,有著深厚的積累。
在技術(shù)布局的過程中,商湯經(jīng)歷了從「視覺感知」到「多模態(tài)推理」的探索。
它不僅能識(shí)別棋子,還能在遮擋情況下實(shí)現(xiàn)精準(zhǔn)抓取。這一突破標(biāo)志著,商湯向物理世界交互的具身智能邁進(jìn)。
在大模型掀起的熱潮中,商湯多次迭代了「日日新大模型」,通過原生融合模態(tài)訓(xùn)練,在多模態(tài)推理和長(zhǎng)思維鏈能力上,取得了頂尖的性能。
而且,日日新早已用在傅利葉、歸墟等公司的機(jī)器人「大腦」上。
這一次,徐立又帶著最新的SenseNovaV6.5來了。
在多模態(tài)推理上,V6.5與Gemini2.5Pro不相上下;在交互性能上,多榜單刷新SOTA,并且推理成本狂降到30%。
另一方面,商湯的AI大裝置SenseCore2.0,能為其具身智能平臺(tái)提供強(qiáng)大的算力支持。
截至2024年底,商湯大裝置運(yùn)營的「總算力規(guī)模」已達(dá)23,000PetaFlops。
通過預(yù)填充和解碼分離等優(yōu)化技術(shù),SenseCore能提升GPU利用率和推理效率,降低了模型的部署成本。
這種端云協(xié)同架構(gòu),可以支撐從數(shù)據(jù)生產(chǎn)、模型訓(xùn)練,到仿真測(cè)試的全流程,提供了一站式解決方案。
除了底層能力的積累,商湯在生態(tài)方面也在加速布局。
商湯旗下國香資本,投資了銀河通用、眾擎、鈦虎等多家具身智能企業(yè),覆蓋了本體、運(yùn)控、關(guān)鍵模組等全產(chǎn)業(yè)鏈環(huán)節(jié)。
龐大的具身智能「朋友圈」,能讓商湯更了解產(chǎn)業(yè)痛點(diǎn),加速技術(shù)驗(yàn)證和迭代,進(jìn)而反哺和優(yōu)化模型算法。
在人才儲(chǔ)備上,商湯匯聚了多位頂尖行業(yè)學(xué)者,比如深度學(xué)習(xí)與計(jì)算機(jī)領(lǐng)域的專家林達(dá)華、王曉剛等等。
從技術(shù)演進(jìn),到算力、生態(tài)、人才的全面布局,充分展現(xiàn)了商湯「三位一體」的綜合實(shí)力。
具身智能的黃金時(shí)代已悄然開啟,商湯「悟能」平臺(tái)的發(fā)布恰逢其時(shí)。
在這場(chǎng)激烈的競(jìng)爭(zhēng)中,「悟能」不僅是對(duì)商湯技術(shù)基因的延伸,更有望成為撬動(dòng)具身智能「第二增長(zhǎng)曲線」的關(guān)鍵支點(diǎn)。
未來,在智能制造、醫(yī)療護(hù)理、家庭服務(wù)等多場(chǎng)景中,具身智能蘊(yùn)藏著萬億級(jí)市場(chǎng)價(jià)值。
商湯正以王者之姿,點(diǎn)燃具身智能的引爆點(diǎn),讓機(jī)器人成為所有人的「超級(jí)隊(duì)友」。
《鳳于九天》宣布開機(jī),原著作者卻稱不知情,并調(diào)侃自己是死了嗎
愛奇藝又一部古裝甜寵劇開機(jī),女主“作天作地”,上演甜蜜愛情
《鳳逆九天:絕世妖女傾天下》高冷男主x逆襲女主,兜兜轉(zhuǎn)轉(zhuǎn),是你就好