世界模型的價(jià)值不在于替代人類認(rèn)知,而在擴(kuò)展AI的物理邊界。正如商湯CTO王曉剛所言:“我們搭建的是橋梁,而非終點(diǎn)。”
2025年7月26日,世界人工智能大會(WAIC2025)在上海開幕,商湯絕影帶來了升級后的“絕影開悟”世界模型。
這款官方定義為“連接數(shù)字世界與真實(shí)物理世界”的技術(shù)產(chǎn)品,一方面展示了商湯在輔助駕駛領(lǐng)域的量產(chǎn)落地能力,同時(shí)也揭示了其向具身智能領(lǐng)域延伸的野心——通過構(gòu)建4D真實(shí)世界模型,為AI搭建通往物理世界交互的技術(shù)橋梁。
從數(shù)據(jù)生成到實(shí)訓(xùn)場建設(shè)
在輔助駕駛領(lǐng)域,“絕影開悟”的量產(chǎn)能力成為本次亮相的核心亮點(diǎn)。作為行業(yè)首個(gè)已實(shí)現(xiàn)量產(chǎn)的生成式世界模型,其技術(shù)價(jià)值已體現(xiàn)在產(chǎn)業(yè)實(shí)踐中。
此前,上海自動(dòng)駕駛實(shí)訓(xùn)場建設(shè)成果發(fā)布,商湯絕影深度參與其中,以“絕影開悟”世界模型給自動(dòng)駕駛實(shí)訓(xùn)場建設(shè)提供支持。
目前,商湯絕影已與上汽集團(tuán)旗下智己汽車打通Cut-in(加塞)、碰撞等關(guān)鍵場景的數(shù)據(jù)生成鏈路,意味著這些高風(fēng)險(xiǎn)、低概率的駕駛場景可通過模型批量生成,無需依賴真實(shí)路測采集。
雙方的合作不止于此,據(jù)透露,未來將聯(lián)合打造“數(shù)據(jù)工廠”,通過規(guī)?;蓤鼍皵?shù)據(jù),加速輔助駕駛系統(tǒng)的安全落地。
這種模式的優(yōu)勢在于解決了傳統(tǒng)路測的核心痛點(diǎn):真實(shí)場景采集成本高、極端案例覆蓋率低。例如,一場罕見的暴雨天氣下的連環(huán)追尾場景,通過“絕影開悟”可在數(shù)小時(shí)內(nèi)生成數(shù)千組變體數(shù)據(jù),而真實(shí)采集可能需要數(shù)年等待。
技術(shù)落地的背后,是產(chǎn)品化能力的支撐。
本次世界人工智能大會上,商湯絕影正式發(fā)布輔助駕駛領(lǐng)域首個(gè)生成式世界模型產(chǎn)品平臺,面向B端企業(yè)與C端開發(fā)者開放試用。
該平臺的功能體現(xiàn)在兩方面:一是場景定制的靈活性,支持天氣(晴/雨/雪)、光線(黎明/正午/黃昏)、道路類型(高速/城區(qū)/鄉(xiāng)村)等多維度參數(shù)調(diào)整;二是“提示詞生成”的便捷性,用戶輸入“雨天路面直行,前方有面包車在碰撞前剎停”等描述,即可一鍵生成對應(yīng)場景視頻。
與之配套的,是業(yè)內(nèi)最大規(guī)模的生成式駕駛數(shù)據(jù)集“WorldSim-Drive”。
該數(shù)據(jù)集包含超100萬段(clips)量產(chǎn)級數(shù)據(jù),覆蓋50余種天氣光照條件、200類交通標(biāo)牌及300類道路連接場景。
比數(shù)據(jù)數(shù)量更關(guān)鍵的是數(shù)據(jù)質(zhì)量。通過多視角時(shí)空對齊技術(shù),模型可以同時(shí)生成第一視角(駕駛員視角)與第三視角(外部觀測視角)數(shù)據(jù),且分辨率達(dá)1080P,時(shí)長支持分鐘級連續(xù)記錄,保真度接近真實(shí)采集數(shù)據(jù)。
效率方面,“絕影開悟”基于單張A100GPU,其每日生成的數(shù)據(jù)量相當(dāng)于10臺真實(shí)測試車或100臺路測車的采集能力,效率約為500臺量產(chǎn)車的總和。
據(jù)悉,目前商湯絕影已有20%的訓(xùn)練數(shù)據(jù)來自該模型生成,大幅降低了對真實(shí)路測的依賴。
4D交互訓(xùn)練場:從仿真測試到實(shí)時(shí)體驗(yàn)
“絕影開悟”的技術(shù)縱深,體現(xiàn)在其構(gòu)建的4D實(shí)時(shí)交互訓(xùn)練場。其通過融合3DGS重建技術(shù)與世界模型生成能力,讓4D交互訓(xùn)練場實(shí)現(xiàn)了三項(xiàng)進(jìn)步。
其一,大尺度高精度重建。模型能夠?qū)?km2范圍內(nèi)的真實(shí)空間進(jìn)行高精度數(shù)字化重建,為車端模型提供接近真實(shí)的虛擬測試環(huán)境。
其二,動(dòng)態(tài)場景閉環(huán)生成。用戶通過文本描述或場景布局設(shè)定,就可以觸發(fā)“輸入需求→生成場景→微調(diào)優(yōu)化”的閉環(huán)流程,快速生成占道急剎、環(huán)島繞行等復(fù)雜場景。
其三,實(shí)時(shí)交互能力。策略模型與環(huán)境模型可以實(shí)現(xiàn)實(shí)時(shí)響應(yīng),從而確保仿真測試結(jié)果與真實(shí)駕駛的一致性。
目前,4D實(shí)時(shí)交互訓(xùn)練場已在合作中落地。商湯絕影與智己汽車合作構(gòu)建的測試場景庫,已覆蓋占道急剎、環(huán)島繞行等典型場景,未來計(jì)劃擴(kuò)展至千萬級規(guī)模,來覆蓋幾乎所有的駕駛可能性。
在WAIC現(xiàn)場,觀眾還可以通過交互界面體驗(yàn)“虛擬駕駛”,例如在模型生成的暴雨天氣高速場景中,實(shí)時(shí)操控車輛應(yīng)對加塞,感受模型對物理環(huán)境的仿真精度。
向具身智能的延伸
如果說智能汽車是“簡單的具身智能”,那么機(jī)器人等硬件則需要更復(fù)雜的物理世界理解能力。
這類具身智能面臨的核心難題是“數(shù)據(jù)維度爆炸”,即機(jī)器人的傳感器配置(視覺、觸覺、力覺等)、移動(dòng)方式(輪式、履帶式、多足式)遠(yuǎn)多于汽車,且需應(yīng)對家庭、工業(yè)等多樣化場景,傳統(tǒng)數(shù)據(jù)采集方式成本高、效率低。更棘手的是“Sim2Real鴻溝”,即通過模擬工具生成的數(shù)據(jù)難以直接應(yīng)用于真實(shí)場景。
而商湯絕影的解決辦法是將輔助駕駛領(lǐng)域的“虛實(shí)融合”數(shù)據(jù)遷移到具身智能上。
首先,構(gòu)建多模態(tài)時(shí)空對齊能力。通過多傳感器融合技術(shù),模型可將視覺、觸覺等數(shù)據(jù)在時(shí)間與空間維度精準(zhǔn)匹配。
其次,生成高保真4D環(huán)境?;趧?dòng)態(tài)環(huán)境建模技術(shù),模型能實(shí)時(shí)預(yù)測物體運(yùn)動(dòng)軌跡,例如預(yù)判家庭場景中寵物的突然跑動(dòng)。
最后,建立閉環(huán)驗(yàn)證體系。通過強(qiáng)化學(xué)習(xí),機(jī)器人可以在虛擬環(huán)境中反復(fù)訓(xùn)練交互動(dòng)作,再遷移至真實(shí)世界。
支撐這一遷移的是商湯的具身3D資產(chǎn)庫,其中包含了10萬個(gè)真實(shí)3D資產(chǎn),涵蓋了家庭、辦公、工業(yè)等20類場景的動(dòng)作數(shù)據(jù)。
更關(guān)鍵的是數(shù)據(jù)視角的完整性,模型既可生成機(jī)器人的“第一視角”,例如抓取物體的手部特寫;也能生成“第三視角”,例如上帝視角下的機(jī)器人全身動(dòng)作,從而解決了傳統(tǒng)數(shù)據(jù)視角單一的問題。
結(jié)語:
“絕影開悟”的進(jìn)化路徑,本質(zhì)上是AI從數(shù)字世界走向物理世界的縮影。
商湯科技聯(lián)合創(chuàng)始人、CTO王曉剛在世界人工智能大會上表示,“絕影開悟”世界模型的核心價(jià)值在于“將AI創(chuàng)造力轉(zhuǎn)化為生產(chǎn)力”,既為輔助駕駛提供場景數(shù)據(jù),也為具身智能打造數(shù)據(jù)引擎。
從輔助駕駛到機(jī)器人,從數(shù)據(jù)生成到實(shí)時(shí)交互,“絕影開悟”的技術(shù)邏輯都圍繞一個(gè)目標(biāo):通過構(gòu)建與真實(shí)世界一致的4D模型,讓AI在虛擬環(huán)境中“學(xué)會”與物理世界交互。
當(dāng)這種能力成熟時(shí),或許我們將看到家庭機(jī)器人能精準(zhǔn)預(yù)判老人起身時(shí)的動(dòng)作輔助,工業(yè)機(jī)械臂能在復(fù)雜流水線中自主避障。而這一切的起點(diǎn),正是世界模型這個(gè)連接數(shù)字與物理世界的技術(shù)橋梁。(本文首發(fā)于鈦媒體App作者|王垚,編輯|李玉鵬)