在人工智能快速演進(jìn)的當(dāng)下,具身智能作為感知、行動(dòng)和交互能力的融合,正逐漸成為技術(shù)創(chuàng)新的新方向。
商湯科技正加大在這一領(lǐng)域的布局。近日,在WAIC2025大模型論壇上,商湯正式發(fā)布其“悟能”具身智能平臺(tái),標(biāo)志著商湯在推動(dòng)具身智能發(fā)展方面的又一進(jìn)展。
據(jù)悉,“悟能”以商湯具身世界模型為核心引擎,依托商湯大裝置提供端側(cè)和云側(cè)算力支持,能夠?yàn)闄C(jī)器人、智能設(shè)備提供感知、視覺(jué)導(dǎo)航及多模態(tài)交互能力;“悟能”還可賦能機(jī)器人等各種終端硬件,實(shí)現(xiàn)對(duì)世界萬(wàn)物的感知理解能力,并支持嵌入到端側(cè)芯片,具備較強(qiáng)的場(chǎng)景適配性。此外,“悟能”還能生成多視角視頻,確保較為良好的時(shí)間一致性和空間一致性,讓機(jī)器能夠理解、生成、編輯真實(shí)世界,在空間層面實(shí)現(xiàn)世界交互。
更關(guān)鍵的是,商湯具身世界模型能構(gòu)建面向人、物、場(chǎng)的4D真實(shí)世界,用戶僅需輸入簡(jiǎn)單的提示詞,比如“在廚房區(qū)域的架子上找東西”,“進(jìn)入娛樂(lè)室、向右轉(zhuǎn),然后打開通往院子的門”等,具身世界模型就能自主進(jìn)行位姿、動(dòng)作骨架和指令的生成。
商湯科技董事長(zhǎng)兼CEO徐立在論壇上表示,“商湯‘開悟’世界模型,由日日新V6.5賦能,而‘開悟’世界模型也是視頻生成模型,但它考慮了時(shí)間、空間的一致性?!?/p>
徐立進(jìn)一步解釋稱,比如自動(dòng)駕駛需采集大量復(fù)雜視角,如七路攝像頭typo數(shù)據(jù),開悟模型僅憑自然語(yǔ)言描述,即可生成逼真的七路攝像頭視角模擬數(shù)據(jù)。
“現(xiàn)在任何人都可以通過(guò)自然語(yǔ)言描述場(chǎng)景,生成符合3D物理規(guī)則、特定視角的視頻片段。我們要求的不是視頻質(zhì)量達(dá)到電影級(jí)別,而是符合物理規(guī)則、物理定律,并且能夠真正意義上切進(jìn)用戶的使用場(chǎng)景,讓你在真實(shí)世界開上極品飛車。”徐立表示,而這部分能力,完全可以擴(kuò)展到機(jī)器人的學(xué)習(xí)和應(yīng)用中。
值得一提的是,商湯在具身智能領(lǐng)域的探索并非首次。
今年4月,商湯在其2025技術(shù)交流日上已展示了基于SenseCore2.0大裝置訓(xùn)練的具身智能成果,并與傅利葉、松應(yīng)科技等公司達(dá)成戰(zhàn)略合作。
展覽期間,商湯科技還發(fā)布了日日新V6.5多模態(tài)大模型。據(jù)悉,日日新6.5獨(dú)創(chuàng)了圖文交錯(cuò)思維鏈,跨模態(tài)推理精度有較大提升。
具體來(lái)看,傳統(tǒng)的多模態(tài)推理模型,在推理之前會(huì)將圖像轉(zhuǎn)變成文本解讀,后續(xù)的推理過(guò)程就變成了純文本。而在圖文交錯(cuò)思維鏈當(dāng)中,圖像會(huì)以本體的形式參與到整個(gè)推理過(guò)程。
在展覽現(xiàn)場(chǎng),商湯還展示了一款搭載日日新V6.5多模態(tài)大模型的人形機(jī)器人。該機(jī)器人能夠進(jìn)行自然流暢的PPT講解,并以生動(dòng)有趣的互動(dòng)對(duì)話吸引了大量參觀者注意。
有分析指出,通過(guò)這一系列的創(chuàng)新和技術(shù)積累,商湯正在逐步消除機(jī)器人和智能設(shè)備的“冷感”,讓它們能夠更好地融入人的日常生活,并在更復(fù)雜的環(huán)境中實(shí)現(xiàn)自主互動(dòng)。這也是商湯AI技術(shù)逐步成為提升生產(chǎn)力的重要工具的體現(xiàn)。
而隨著多模態(tài)技術(shù)的不斷突破,具身智能也將不斷賦能機(jī)器人和智能設(shè)備,在各行各業(yè)中發(fā)揮越來(lái)越重要的作用。
小說(shuō):高考當(dāng)天重生,與前妻再遇,這次我選學(xué)霸?;?
小說(shuō):重生高考場(chǎng),他逆襲IT大亨,終成教父級(jí)傳奇
小說(shuō):頂尖工程師獲透視重生高考,這次他要逆天改命,走向巔峰!
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。