在人工智能快速演進的當(dāng)下,具身智能作為感知、行動和交互能力的融合,正逐漸成為技術(shù)創(chuàng)新的新方向。
商湯科技正加大在這一領(lǐng)域的布局。近日,在WAIC2025大模型論壇上,商湯正式發(fā)布其“悟能”具身智能平臺,標(biāo)志著商湯在推動具身智能發(fā)展方面的又一進展。
據(jù)悉,“悟能”以商湯具身世界模型為核心引擎,依托商湯大裝置提供端側(cè)和云側(cè)算力支持,能夠為機器人、智能設(shè)備提供感知、視覺導(dǎo)航及多模態(tài)交互能力;“悟能”還可賦能機器人等各種終端硬件,實現(xiàn)對世界萬物的感知理解能力,并支持嵌入到端側(cè)芯片,具備較強的場景適配性。此外,“悟能”還能生成多視角視頻,確保較為良好的時間一致性和空間一致性,讓機器能夠理解、生成、編輯真實世界,在空間層面實現(xiàn)世界交互。
更關(guān)鍵的是,商湯具身世界模型能構(gòu)建面向人、物、場的4D真實世界,用戶僅需輸入簡單的提示詞,比如“在廚房區(qū)域的架子上找東西”,“進入娛樂室、向右轉(zhuǎn),然后打開通往院子的門”等,具身世界模型就能自主進行位姿、動作骨架和指令的生成。
商湯科技董事長兼CEO徐立在論壇上表示,“商湯‘開悟’世界模型,由日日新V6.5賦能,而‘開悟’世界模型也是視頻生成模型,但它考慮了時間、空間的一致性?!?/p>
徐立進一步解釋稱,比如自動駕駛需采集大量復(fù)雜視角,如七路攝像頭typo數(shù)據(jù),開悟模型僅憑自然語言描述,即可生成逼真的七路攝像頭視角模擬數(shù)據(jù)。
“現(xiàn)在任何人都可以通過自然語言描述場景,生成符合3D物理規(guī)則、特定視角的視頻片段。我們要求的不是視頻質(zhì)量達(dá)到電影級別,而是符合物理規(guī)則、物理定律,并且能夠真正意義上切進用戶的使用場景,讓你在真實世界開上極品飛車?!毙炝⒈硎?,而這部分能力,完全可以擴展到機器人的學(xué)習(xí)和應(yīng)用中。
值得一提的是,商湯在具身智能領(lǐng)域的探索并非首次。
今年4月,商湯在其2025技術(shù)交流日上已展示了基于SenseCore2.0大裝置訓(xùn)練的具身智能成果,并與傅利葉、松應(yīng)科技等公司達(dá)成戰(zhàn)略合作。
展覽期間,商湯科技還發(fā)布了日日新V6.5多模態(tài)大模型。據(jù)悉,日日新6.5獨創(chuàng)了圖文交錯思維鏈,跨模態(tài)推理精度有較大提升。
具體來看,傳統(tǒng)的多模態(tài)推理模型,在推理之前會將圖像轉(zhuǎn)變成文本解讀,后續(xù)的推理過程就變成了純文本。而在圖文交錯思維鏈當(dāng)中,圖像會以本體的形式參與到整個推理過程。
在展覽現(xiàn)場,商湯還展示了一款搭載日日新V6.5多模態(tài)大模型的人形機器人。該機器人能夠進行自然流暢的PPT講解,并以生動有趣的互動對話吸引了大量參觀者注意。
有分析指出,通過這一系列的創(chuàng)新和技術(shù)積累,商湯正在逐步消除機器人和智能設(shè)備的“冷感”,讓它們能夠更好地融入人的日常生活,并在更復(fù)雜的環(huán)境中實現(xiàn)自主互動。這也是商湯AI技術(shù)逐步成為提升生產(chǎn)力的重要工具的體現(xiàn)。
而隨著多模態(tài)技術(shù)的不斷突破,具身智能也將不斷賦能機器人和智能設(shè)備,在各行各業(yè)中發(fā)揮越來越重要的作用。
豆瓣9.4分!100年來最值得讀的國史入門書,現(xiàn)在有了地圖版
你是否曾對厚重的歷史書望而卻步?是否覺得朝代更替、戰(zhàn)爭紛爭難以理清?《地理上的中國通史》這本神奇的歷史書,用100幅精心繪制的地圖,為你打開一扇通往過去的時空之門,讓枯燥的歷史變得生動有趣!左圖右史:看得見的歷史這本書最特別的地方就是它的"左圖右史"設(shè)計。想象一下,左邊是張騫出使西域的路線圖,右邊是詳細(xì)的文字描述——你 《喋血長平》豆瓣評分:9.2 長平之戰(zhàn)是中國古代軍事史上規(guī)??涨暗囊粓鰬?zhàn)略決戰(zhàn),秦趙兩國先后在戰(zhàn)役中投入兵力上百萬。戰(zhàn)國四名將中的白起、廉頗都參與了此戰(zhàn),四十萬趙軍俘虜被一夜坑殺,戰(zhàn)況極其慘烈血腥。敵對雙方的政治手腕與軍事謀略在長平之戰(zhàn)中都得到了淋漓盡致的表現(xiàn)。《神秘的西夏》豆瓣評分:8.8 以近些有幫助請點贊。央視力薦的5部神級紀(jì)錄片,富含各科知識點,假期一定要帶孩子看