世界模型的價值不在于替代人類認知,而在擴展AI的物理邊界。正如商湯CTO王曉剛所言:“我們搭建的是橋梁,而非終點。”
2025年7月26日,世界人工智能大會(WAIC2025)在上海開幕,商湯絕影帶來了升級后的“絕影開悟”世界模型。
這款官方定義為“連接數(shù)字世界與真實物理世界”的技術產(chǎn)品,一方面展示了商湯在輔助駕駛領域的量產(chǎn)落地能力,同時也揭示了其向具身智能領域延伸的野心——通過構建4D真實世界模型,為AI搭建通往物理世界交互的技術橋梁。
從數(shù)據(jù)生成到實訓場建設
在輔助駕駛領域,“絕影開悟”的量產(chǎn)能力成為本次亮相的核心亮點。作為行業(yè)首個已實現(xiàn)量產(chǎn)的生成式世界模型,其技術價值已體現(xiàn)在產(chǎn)業(yè)實踐中。
此前,上海自動駕駛實訓場建設成果發(fā)布,商湯絕影深度參與其中,以“絕影開悟”世界模型給自動駕駛實訓場建設提供支持。
目前,商湯絕影已與上汽集團旗下智己汽車打通Cut-in(加塞)、碰撞等關鍵場景的數(shù)據(jù)生成鏈路,意味著這些高風險、低概率的駕駛場景可通過模型批量生成,無需依賴真實路測采集。
雙方的合作不止于此,據(jù)透露,未來將聯(lián)合打造“數(shù)據(jù)工廠”,通過規(guī)?;蓤鼍皵?shù)據(jù),加速輔助駕駛系統(tǒng)的安全落地。
這種模式的優(yōu)勢在于解決了傳統(tǒng)路測的核心痛點:真實場景采集成本高、極端案例覆蓋率低。例如,一場罕見的暴雨天氣下的連環(huán)追尾場景,通過“絕影開悟”可在數(shù)小時內(nèi)生成數(shù)千組變體數(shù)據(jù),而真實采集可能需要數(shù)年等待。
技術落地的背后,是產(chǎn)品化能力的支撐。
本次世界人工智能大會上,商湯絕影正式發(fā)布輔助駕駛領域首個生成式世界模型產(chǎn)品平臺,面向B端企業(yè)與C端開發(fā)者開放試用。
該平臺的功能體現(xiàn)在兩方面:一是場景定制的靈活性,支持天氣(晴/雨/雪)、光線(黎明/正午/黃昏)、道路類型(高速/城區(qū)/鄉(xiāng)村)等多維度參數(shù)調(diào)整;二是“提示詞生成”的便捷性,用戶輸入“雨天路面直行,前方有面包車在碰撞前剎?!钡让枋觯纯梢绘I生成對應場景視頻。
與之配套的,是業(yè)內(nèi)最大規(guī)模的生成式駕駛數(shù)據(jù)集“WorldSim-Drive”。
該數(shù)據(jù)集包含超100萬段(clips)量產(chǎn)級數(shù)據(jù),覆蓋50余種天氣光照條件、200類交通標牌及300類道路連接場景。
比數(shù)據(jù)數(shù)量更關鍵的是數(shù)據(jù)質(zhì)量。通過多視角時空對齊技術,模型可以同時生成第一視角(駕駛員視角)與第三視角(外部觀測視角)數(shù)據(jù),且分辨率達1080P,時長支持分鐘級連續(xù)記錄,保真度接近真實采集數(shù)據(jù)。
效率方面,“絕影開悟”基于單張A100GPU,其每日生成的數(shù)據(jù)量相當于10臺真實測試車或100臺路測車的采集能力,效率約為500臺量產(chǎn)車的總和。
據(jù)悉,目前商湯絕影已有20%的訓練數(shù)據(jù)來自該模型生成,大幅降低了對真實路測的依賴。
4D交互訓練場:從仿真測試到實時體驗
“絕影開悟”的技術縱深,體現(xiàn)在其構建的4D實時交互訓練場。其通過融合3DGS重建技術與世界模型生成能力,讓4D交互訓練場實現(xiàn)了三項進步。
其一,大尺度高精度重建。模型能夠對1km2范圍內(nèi)的真實空間進行高精度數(shù)字化重建,為車端模型提供接近真實的虛擬測試環(huán)境。
其二,動態(tài)場景閉環(huán)生成。用戶通過文本描述或場景布局設定,就可以觸發(fā)“輸入需求→生成場景→微調(diào)優(yōu)化”的閉環(huán)流程,快速生成占道急剎、環(huán)島繞行等復雜場景。
其三,實時交互能力。策略模型與環(huán)境模型可以實現(xiàn)實時響應,從而確保仿真測試結果與真實駕駛的一致性。
目前,4D實時交互訓練場已在合作中落地。商湯絕影與智己汽車合作構建的測試場景庫,已覆蓋占道急剎、環(huán)島繞行等典型場景,未來計劃擴展至千萬級規(guī)模,來覆蓋幾乎所有的駕駛可能性。
在WAIC現(xiàn)場,觀眾還可以通過交互界面體驗“虛擬駕駛”,例如在模型生成的暴雨天氣高速場景中,實時操控車輛應對加塞,感受模型對物理環(huán)境的仿真精度。
向具身智能的延伸
如果說智能汽車是“簡單的具身智能”,那么機器人等硬件則需要更復雜的物理世界理解能力。
這類具身智能面臨的核心難題是“數(shù)據(jù)維度爆炸”,即機器人的傳感器配置(視覺、觸覺、力覺等)、移動方式(輪式、履帶式、多足式)遠多于汽車,且需應對家庭、工業(yè)等多樣化場景,傳統(tǒng)數(shù)據(jù)采集方式成本高、效率低。更棘手的是“Sim2Real鴻溝”,即通過模擬工具生成的數(shù)據(jù)難以直接應用于真實場景。
而商湯絕影的解決辦法是將輔助駕駛領域的“虛實融合”數(shù)據(jù)遷移到具身智能上。
首先,構建多模態(tài)時空對齊能力。通過多傳感器融合技術,模型可將視覺、觸覺等數(shù)據(jù)在時間與空間維度精準匹配。
其次,生成高保真4D環(huán)境?;趧討B(tài)環(huán)境建模技術,模型能實時預測物體運動軌跡,例如預判家庭場景中寵物的突然跑動。
最后,建立閉環(huán)驗證體系。通過強化學習,機器人可以在虛擬環(huán)境中反復訓練交互動作,再遷移至真實世界。
支撐這一遷移的是商湯的具身3D資產(chǎn)庫,其中包含了10萬個真實3D資產(chǎn),涵蓋了家庭、辦公、工業(yè)等20類場景的動作數(shù)據(jù)。
更關鍵的是數(shù)據(jù)視角的完整性,模型既可生成機器人的“第一視角”,例如抓取物體的手部特寫;也能生成“第三視角”,例如上帝視角下的機器人全身動作,從而解決了傳統(tǒng)數(shù)據(jù)視角單一的問題。
結語:
“絕影開悟”的進化路徑,本質(zhì)上是AI從數(shù)字世界走向物理世界的縮影。
商湯科技聯(lián)合創(chuàng)始人、CTO王曉剛在世界人工智能大會上表示,“絕影開悟”世界模型的核心價值在于“將AI創(chuàng)造力轉化為生產(chǎn)力”,既為輔助駕駛提供場景數(shù)據(jù),也為具身智能打造數(shù)據(jù)引擎。
從輔助駕駛到機器人,從數(shù)據(jù)生成到實時交互,“絕影開悟”的技術邏輯都圍繞一個目標:通過構建與真實世界一致的4D模型,讓AI在虛擬環(huán)境中“學會”與物理世界交互。
當這種能力成熟時,或許我們將看到家庭機器人能精準預判老人起身時的動作輔助,工業(yè)機械臂能在復雜流水線中自主避障。而這一切的起點,正是世界模型這個連接數(shù)字與物理世界的技術橋梁。(本文首發(fā)于鈦媒體App作者|王垚,編輯|李玉鵬)