新智元報道
編輯部
【新智元導(dǎo)讀】如今的具身智能,早已爆紅AI圈。數(shù)據(jù)瓶頸、難以多場景泛化等難題,一直困擾著業(yè)界的玩家們。就在WAIC上,全新具身智能平臺「悟能」登場了。它以世界模型為引擎,能為機器人提供強大感知、導(dǎo)航、多模態(tài)交互能力。
WAIC上,各家機器人的火爆,各位已經(jīng)都見證過了。
不過現(xiàn)在行業(yè)遭遇的一個重大瓶頸,就是急缺數(shù)據(jù)、訓(xùn)練效率低,讓許多機器人的性能暴漲被卡了脖子。
這樣就導(dǎo)致目前絕大多數(shù)具身智能機器人,自主解決問題的能力還比較弱。
怎么破?商湯有解。
昨天的WAIC上,商湯的具身智能平臺——悟能正式亮相!這是一場真正的炸裂革命。
你只需用一句自然語言描述場景,它就能為具身智能的訓(xùn)練生成符合物理規(guī)則、多視角統(tǒng)一、真實世界還原度極高的多視角視頻。
也就是說,商湯用自己擅長的世界模型,破解了仿真數(shù)據(jù)輸出的難題,賦能各種場景的機器人(和機器狗)。
想象一下,你雙手緊握方向盤,腳踩油門,身臨其境地穿梭在城市街頭,光影變幻,七個攝像頭為你構(gòu)建出一個無比真實的世界。
別誤會,這不是你在玩《極品飛車》,而是你在和AI一起「開悟」!
接下來的AI,將不再是工具,而是合作者、探索者、創(chuàng)造者。此刻,就是我們一同駛向未來的起點。
商湯「悟能」平臺,為什么能為具身智能做到如此不可思議的賦能?讓我們來仔細看看。
四大功能,讓機器人性能再進一步
首先,機器人的一個核心問題,就是大腦VLA。很多行業(yè)的翹楚,都在這個方向推出了自己的模型。
而對于這些領(lǐng)域,商湯既有的能力感知和多模態(tài),就有極大的使用空間。
比如,機器人的感知、導(dǎo)航、交互,以及世界模型,都能助力于機器人構(gòu)造很好的VLA以及跟世界交互的可能性。
另外,商湯的大裝置,還能給底層提供端側(cè)和云側(cè)的核心方案。
具體來說,這個平臺提供了以下功能。
感知
做視覺感知,是商湯的一大強項。
不管是機器狗還是機器人都是帶視覺的,一個天然視覺感知,就是對世界萬物做識別和理解。
左邊為機器狗的視角,右邊為機器人的視角
而商湯在這部分的視覺能力,恰好就能完全嵌入到機器人的核心芯片當(dāng)中,因此,在端側(cè)就能處理好這種感知能力。
同時,它們也被賦能去識別場景中的所有物件、行人。
總之,如果在機器人行業(yè)中需要做感知,用商湯平臺就再合適不過了。它適配了大量的芯片,包括提供云和端側(cè)處理的能力。
導(dǎo)航
平臺的第二大能力,就是視覺導(dǎo)航。
目前在行業(yè)中,雖然已經(jīng)有了全自主的無人駕駛車,卻還并未出現(xiàn)全自主自動駕駛的機器狗和機器人。
而商湯絕影,恰巧就在做全自主視覺的無人駕駛。
此前,這個團隊已經(jīng)賦能了許多車企,做端到端的智能駕駛。
這些同樣的模塊,也可以去適配到機器狗和機器人身上。
比如,對機器狗來說,導(dǎo)航就是找到一個非車道以外的、人能行駛的路徑,規(guī)劃好路徑以后,來做好避障即可。
因此,同樣的能力可以賦能各式各樣不同的基礎(chǔ)硬件。
下面展示的,便是機器狗行進的過程中,「悟能」實時為它做出的路徑規(guī)劃。
交互
平臺的第三大能力,就是交互工具。
現(xiàn)場,商湯科技董事長兼CEO徐立為我們舉了一個很有意思的例子——用AI生成《長安的荔枝》的PPT,然后讓機器人給我們來做講解。
這一次,機器人被調(diào)適得非常幽默,可以讓我們深刻感受到,它已經(jīng)從一個交互工具,演變成了一個交互伙伴。
只見這個機器人繪聲繪色地做起了講解,頗具個人風(fēng)格,期間還不斷爆梗:「難度大概相當(dāng)于讓你拿小靈通打王者榮耀,想想就知道有多虐!」
「那咱們來算一筆賬,按唐朝的銀子換算,一次運輸?shù)没ǖ艚裉斓?000萬人民幣!」
注意,在這個過程中,機器人是自己翻PPT的——它很清楚地知道,自己講解的內(nèi)容是在哪一頁。甚至如果我們對它提問,它還會自己翻回去。
甚至在嘈雜環(huán)境中,它也不怕被打斷。即使中間你問它問題,它在講解完后,還會記得自己的主線任務(wù),繼續(xù)往下講。
整個過程中都體現(xiàn)出,這個機器人有全局記憶的能力。
甚至有趣的是,上面這個功能,還可以用到機器狗上,對于形態(tài)并沒有限制。
從「開悟」,到「悟能」具身世界模型
現(xiàn)在,商湯「開悟」世界模型,已經(jīng)可以在車?yán)锷啥嘁暯且曨l。
這一點,可以說意義重大。原因在于,在虛擬世界里要生成很多數(shù)據(jù)去做交互,最關(guān)鍵的就是,這些數(shù)據(jù)在未來可能就是強化學(xué)習(xí)的一個基礎(chǔ)。
而商湯在自動駕駛上,就已經(jīng)做到了用一句自然語言去生成一個七視角攝像頭的視頻。
可以看到,它具有很好的空間一致性。(車開過不同攝像頭時,它幾何位置的對應(yīng),完全符合物理對空間世界的理解。)
而且,它在時序上也做到了一致性。
比如在這臺車行駛的過程中,幾次把車牌號拉出來一看,都能發(fā)現(xiàn)這個世界模型在時序上的生成是一致的。
甚至,世界模型還能做編輯。在這個過程中,可以實時做編輯替換,甚至是插入、刪除現(xiàn)實中的車。
這部分新生成的數(shù)據(jù),可以為AI進入現(xiàn)實世界,提供閉環(huán)交互訓(xùn)練的解決方案。
比如在自動駕駛中,「加塞場景」就是典型的長尾場景,真實數(shù)據(jù)極其稀缺,而開悟世界模型就提供了高質(zhì)量的多場景數(shù)據(jù)(光照、天氣、道路結(jié)構(gòu))。
最后將所有視角的視頻結(jié)合,就仿佛在真實場景中開車一樣。這種交互的真實感與實時性,可以說是「極品飛車」現(xiàn)實版了。
如今,商湯進一步把「開悟」擴展到了具身智能領(lǐng)域,并賦予了它一個全新的名字——「開悟智能」,簡稱「悟能」。
「悟能」具身世界模型,可以通過「人、物、場」,構(gòu)建一個4D的真實世界。
比如下面是兩張初始視角圖。給出一張具身關(guān)節(jié)模型,對它下指令「在廚房區(qū)域的架子上找東西」,它就可以生成如下的視頻,生成了關(guān)節(jié)模型的連續(xù)位姿。
同樣,如果下指令「進入娛樂室,向右轉(zhuǎn),然后打開通往院子的門」,模型也能立刻生成下面的視頻和連續(xù)位姿。
這些具身世界模型生成的內(nèi)容,因為具有時空一致性,就可以從多個角度去觀察。
比如動作骨架正在完成的,是一個手動切黃瓜的指令,而接下來,它就能同時生成一段「第一人稱」和「第三人稱」視角的機器人切黃瓜視頻。
或者,一段機器人在白天的公園里跳躍的視頻。同樣,第一、第三人稱視角都一起生成出來了。
為什么說,第一視角和第三視角相結(jié)合的世界模型如此重要呢?
要知道,機器人并不天然擁有人的直覺,也缺乏對世界的理解。而「悟能」讓機器人同時擁有第一視角和第三視角相結(jié)合的世界模型后,相當(dāng)于給它開了一個外掛。
這樣,它不僅可以通過第一視角,通過傳感器「感知」世界,捕捉到實時環(huán)境信息;還能通過第三視角開啟「上帝視角」,看到人類的肢體、骨骼是如何精妙配合、完成每個動作的,相當(dāng)于擁有人類動作的參考指南。
二者結(jié)合后,我們就能知道機器人看到了什么,應(yīng)該做什么動作,由此,機器人真正像人一樣學(xué)會了舉一反三,能做更自然流暢的交互,可以做端到端的VLA了。
在以往,要靠數(shù)據(jù)采集生成這樣的視頻,需要花費大量的時間和精力,如今卻可以飛速完成。
甚至,這個世界模型還能生成不同相機位姿的視頻,因此,我們可以不限位置,把相機放在機器人的任何位置,來模擬生成符合3D關(guān)系的4D世界真實視頻。
可以看到,以上這幾大功能,可以讓「悟能」平臺賦能各式各樣的機器人企業(yè),讓機器人和現(xiàn)實世界交互。
比如機器狗從此不會只是巡邏和跳舞,現(xiàn)在它可以陪著小孩放學(xué)、陪著老人散步,不僅是守護者,更是貼心的陪伴者。
因為可以導(dǎo)航去任何地方,它就能知道你要去哪兒,會在路上替你規(guī)避危險、應(yīng)對突發(fā),甚至還能幫你拎東西。
可以說,AI演進的十年歷程,就是AI從感知世界,到理解世界,最終具備與真實世界交互的能力。
除了「悟能」平臺,商湯還會構(gòu)建更強的世界模型與空間智能,推動AI邁入真正與物理世界交互的時代,實在是太令人期待了!
具身智能爆火,卻卡在了數(shù)據(jù)上
具身智能賽道,現(xiàn)已成為全球AI核心競爭點之一。
不論是谷歌、英偉達等科技大廠,還是諸如Figure、SkilledAI等初創(chuàng)黑馬,對此不斷加碼研發(fā),沖刺萬億級市場。
然而,具身智能機器人在應(yīng)對多變的現(xiàn)實世界,仍面臨著諸多瓶頸。
這幾天,英偉達杰出科學(xué)家JimFan對此也吐槽了一番——機器人都會跑酷和跳舞了,怎么還不能幫我遛狗呢?
他這一現(xiàn)象稱之為,機器人領(lǐng)域的mini版「莫拉維克悖論」。
這恰恰說明了,具身智能領(lǐng)域的發(fā)展,還有很多問題等待被攻克。
傳統(tǒng)機器人通常被設(shè)計為「專才」,針對特定人任務(wù)進行優(yōu)化,缺乏應(yīng)對多變?nèi)蝿?wù)的靈活性。
舉個栗子,送餐機器人更擅長在餐廳環(huán)境中導(dǎo)航和遞送食物,卻無法在工業(yè)生產(chǎn)線上工作。
這種「單一技能」的模式源于機器人硬件和算法高度定制化,導(dǎo)致不同本體難以實現(xiàn)任務(wù)遷移,即我們常說的「本體泛化」。
若要解決這一挑戰(zhàn),核心便在于設(shè)計一個通用的「智能大腦」。
由此一來,即便是不同形態(tài)的機器人,都能共享一套算法,適應(yīng)多樣化的硬件平臺和任務(wù)需求。
有了本體泛化還不夠,具身智能如何實現(xiàn)「任務(wù)泛化」,是決定其能力的上限。
若要完成「冰箱取食材—切菜—烹飪—端上桌」的任務(wù),長序列規(guī)劃、跨模態(tài)理解,以及實時糾錯的能力必不可少。
人形機器人Neo
當(dāng)前難題是,有時因為光線變化、多步任務(wù)缺少中間狀態(tài)等,機器人就會翻車。
此外,具身智能發(fā)展另一大瓶頸,也是全行業(yè)亟待解決的問題——如何實現(xiàn)場景泛化。
它要求機器人在不同環(huán)境中,都能準(zhǔn)確感知、理解,并于物理世界交互。然而,場景泛化的前提,必須有高質(zhì)量、多模態(tài)的數(shù)據(jù)加持。
如何獲取這些數(shù)據(jù)?生成合成數(shù)據(jù),成為了具身智能「ScalingLaw」的救命稻草。
為了應(yīng)對上述瓶頸,業(yè)界逐漸探索出多種技術(shù)路線,但尚未形成統(tǒng)一的標(biāo)準(zhǔn)。
以谷歌、Figure、PhysicalIntelligence為代表,他們主攻VLA(視覺-語言-動作)模型,通過語言和圖像輸入,直接生成動作。
另一種是「大小腦」架構(gòu),將規(guī)劃和執(zhí)行分離。
最后一種便是常見的「世界模型」,目標(biāo)就是讓機器人能夠像人類一樣「理解世界」。
無論是哪種技術(shù)路線,皆需要高質(zhì)量多模數(shù)據(jù)為支撐。
這一次,商湯WAIC現(xiàn)場帶來的「悟能」具身智能平臺,是一個具備全棧能力的AI大腦。
不論是在感知、視覺導(dǎo)航,還是交互、生成多樣高質(zhì)數(shù)據(jù)上,「悟能」為機器人行業(yè)提供了全面的賦能。
做這件事的人,為什么是商湯?
AI刻在DNA,商湯在下一盤大棋
作為計算機領(lǐng)域的先行者,商湯的入局并非偶然,而是技術(shù)基因和戰(zhàn)略眼光的必然延伸。
多年來,這家AI公司在多模態(tài)大模型、算力基礎(chǔ)設(shè)施,以及產(chǎn)業(yè)生態(tài)各方面,有著深厚的積累。
在技術(shù)布局的過程中,商湯經(jīng)歷了從「視覺感知」到「多模態(tài)推理」的探索。
它不僅能識別棋子,還能在遮擋情況下實現(xiàn)精準(zhǔn)抓取。這一突破標(biāo)志著,商湯向物理世界交互的具身智能邁進。
在大模型掀起的熱潮中,商湯多次迭代了「日日新大模型」,通過原生融合模態(tài)訓(xùn)練,在多模態(tài)推理和長思維鏈能力上,取得了頂尖的性能。
而且,日日新早已用在傅利葉、歸墟等公司的機器人「大腦」上。
這一次,徐立又帶著最新的SenseNovaV6.5來了。
在多模態(tài)推理上,V6.5與Gemini2.5Pro不相上下;在交互性能上,多榜單刷新SOTA,并且推理成本狂降到30%。
另一方面,商湯的AI大裝置SenseCore2.0,能為其具身智能平臺提供強大的算力支持。
截至2024年底,商湯大裝置運營的「總算力規(guī)?!挂堰_23,000PetaFlops。
通過預(yù)填充和解碼分離等優(yōu)化技術(shù),SenseCore能提升GPU利用率和推理效率,降低了模型的部署成本。
這種端云協(xié)同架構(gòu),可以支撐從數(shù)據(jù)生產(chǎn)、模型訓(xùn)練,到仿真測試的全流程,提供了一站式解決方案。
除了底層能力的積累,商湯在生態(tài)方面也在加速布局。
商湯旗下國香資本,投資了銀河通用、眾擎、鈦虎等多家具身智能企業(yè),覆蓋了本體、運控、關(guān)鍵模組等全產(chǎn)業(yè)鏈環(huán)節(jié)。
龐大的具身智能「朋友圈」,能讓商湯更了解產(chǎn)業(yè)痛點,加速技術(shù)驗證和迭代,進而反哺和優(yōu)化模型算法。
在人才儲備上,商湯匯聚了多位頂尖行業(yè)學(xué)者,比如深度學(xué)習(xí)與計算機領(lǐng)域的專家林達華、王曉剛等等。
從技術(shù)演進,到算力、生態(tài)、人才的全面布局,充分展現(xiàn)了商湯「三位一體」的綜合實力。
具身智能的黃金時代已悄然開啟,商湯「悟能」平臺的發(fā)布恰逢其時。
在這場激烈的競爭中,「悟能」不僅是對商湯技術(shù)基因的延伸,更有望成為撬動具身智能「第二增長曲線」的關(guān)鍵支點。
未來,在智能制造、醫(yī)療護理、家庭服務(wù)等多場景中,具身智能蘊藏著萬億級市場價值。
商湯正以王者之姿,點燃具身智能的引爆點,讓機器人成為所有人的「超級隊友」。
...都市極品醫(yī)神漫畫,都市極品醫(yī)神下拉免費漫畫,全集免費閱讀...
《都市極品醫(yī)神動態(tài)漫畫》櫻花動漫在線觀看_國產(chǎn)動漫-58動漫
《都市極品醫(yī)神動態(tài)漫畫》第1集櫻花動漫在線觀看-迅雷下載-國產(chǎn)...
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。