世界模型的價(jià)值不在于替代人類(lèi)認(rèn)知,而在擴(kuò)展AI的物理邊界。正如商湯CTO王曉剛所言:“我們搭建的是橋梁,而非終點(diǎn)?!?/p>
2025年7月26日,世界人工智能大會(huì)(WAIC2025)在上海開(kāi)幕,商湯絕影帶來(lái)了升級(jí)后的“絕影開(kāi)悟”世界模型。
這款官方定義為“連接數(shù)字世界與真實(shí)物理世界”的技術(shù)產(chǎn)品,一方面展示了商湯在輔助駕駛領(lǐng)域的量產(chǎn)落地能力,同時(shí)也揭示了其向具身智能領(lǐng)域延伸的野心——通過(guò)構(gòu)建4D真實(shí)世界模型,為AI搭建通往物理世界交互的技術(shù)橋梁。
從數(shù)據(jù)生成到實(shí)訓(xùn)場(chǎng)建設(shè)
在輔助駕駛領(lǐng)域,“絕影開(kāi)悟”的量產(chǎn)能力成為本次亮相的核心亮點(diǎn)。作為行業(yè)首個(gè)已實(shí)現(xiàn)量產(chǎn)的生成式世界模型,其技術(shù)價(jià)值已體現(xiàn)在產(chǎn)業(yè)實(shí)踐中。
此前,上海自動(dòng)駕駛實(shí)訓(xùn)場(chǎng)建設(shè)成果發(fā)布,商湯絕影深度參與其中,以“絕影開(kāi)悟”世界模型給自動(dòng)駕駛實(shí)訓(xùn)場(chǎng)建設(shè)提供支持。
目前,商湯絕影已與上汽集團(tuán)旗下智己汽車(chē)打通Cut-in(加塞)、碰撞等關(guān)鍵場(chǎng)景的數(shù)據(jù)生成鏈路,意味著這些高風(fēng)險(xiǎn)、低概率的駕駛場(chǎng)景可通過(guò)模型批量生成,無(wú)需依賴真實(shí)路測(cè)采集。
雙方的合作不止于此,據(jù)透露,未來(lái)將聯(lián)合打造“數(shù)據(jù)工廠”,通過(guò)規(guī)?;蓤?chǎng)景數(shù)據(jù),加速輔助駕駛系統(tǒng)的安全落地。
這種模式的優(yōu)勢(shì)在于解決了傳統(tǒng)路測(cè)的核心痛點(diǎn):真實(shí)場(chǎng)景采集成本高、極端案例覆蓋率低。例如,一場(chǎng)罕見(jiàn)的暴雨天氣下的連環(huán)追尾場(chǎng)景,通過(guò)“絕影開(kāi)悟”可在數(shù)小時(shí)內(nèi)生成數(shù)千組變體數(shù)據(jù),而真實(shí)采集可能需要數(shù)年等待。
技術(shù)落地的背后,是產(chǎn)品化能力的支撐。
本次世界人工智能大會(huì)上,商湯絕影正式發(fā)布輔助駕駛領(lǐng)域首個(gè)生成式世界模型產(chǎn)品平臺(tái),面向B端企業(yè)與C端開(kāi)發(fā)者開(kāi)放試用。
該平臺(tái)的功能體現(xiàn)在兩方面:一是場(chǎng)景定制的靈活性,支持天氣(晴/雨/雪)、光線(黎明/正午/黃昏)、道路類(lèi)型(高速/城區(qū)/鄉(xiāng)村)等多維度參數(shù)調(diào)整;二是“提示詞生成”的便捷性,用戶輸入“雨天路面直行,前方有面包車(chē)在碰撞前剎?!钡让枋?,即可一鍵生成對(duì)應(yīng)場(chǎng)景視頻。
與之配套的,是業(yè)內(nèi)最大規(guī)模的生成式駕駛數(shù)據(jù)集“WorldSim-Drive”。
該數(shù)據(jù)集包含超100萬(wàn)段(clips)量產(chǎn)級(jí)數(shù)據(jù),覆蓋50余種天氣光照條件、200類(lèi)交通標(biāo)牌及300類(lèi)道路連接場(chǎng)景。
比數(shù)據(jù)數(shù)量更關(guān)鍵的是數(shù)據(jù)質(zhì)量。通過(guò)多視角時(shí)空對(duì)齊技術(shù),模型可以同時(shí)生成第一視角(駕駛員視角)與第三視角(外部觀測(cè)視角)數(shù)據(jù),且分辨率達(dá)1080P,時(shí)長(zhǎng)支持分鐘級(jí)連續(xù)記錄,保真度接近真實(shí)采集數(shù)據(jù)。
效率方面,“絕影開(kāi)悟”基于單張A100GPU,其每日生成的數(shù)據(jù)量相當(dāng)于10臺(tái)真實(shí)測(cè)試車(chē)或100臺(tái)路測(cè)車(chē)的采集能力,效率約為500臺(tái)量產(chǎn)車(chē)的總和。
據(jù)悉,目前商湯絕影已有20%的訓(xùn)練數(shù)據(jù)來(lái)自該模型生成,大幅降低了對(duì)真實(shí)路測(cè)的依賴。
4D交互訓(xùn)練場(chǎng):從仿真測(cè)試到實(shí)時(shí)體驗(yàn)
“絕影開(kāi)悟”的技術(shù)縱深,體現(xiàn)在其構(gòu)建的4D實(shí)時(shí)交互訓(xùn)練場(chǎng)。其通過(guò)融合3DGS重建技術(shù)與世界模型生成能力,讓4D交互訓(xùn)練場(chǎng)實(shí)現(xiàn)了三項(xiàng)進(jìn)步。
其一,大尺度高精度重建。模型能夠?qū)?km2范圍內(nèi)的真實(shí)空間進(jìn)行高精度數(shù)字化重建,為車(chē)端模型提供接近真實(shí)的虛擬測(cè)試環(huán)境。
其二,動(dòng)態(tài)場(chǎng)景閉環(huán)生成。用戶通過(guò)文本描述或場(chǎng)景布局設(shè)定,就可以觸發(fā)“輸入需求→生成場(chǎng)景→微調(diào)優(yōu)化”的閉環(huán)流程,快速生成占道急剎、環(huán)島繞行等復(fù)雜場(chǎng)景。
其三,實(shí)時(shí)交互能力。策略模型與環(huán)境模型可以實(shí)現(xiàn)實(shí)時(shí)響應(yīng),從而確保仿真測(cè)試結(jié)果與真實(shí)駕駛的一致性。
目前,4D實(shí)時(shí)交互訓(xùn)練場(chǎng)已在合作中落地。商湯絕影與智己汽車(chē)合作構(gòu)建的測(cè)試場(chǎng)景庫(kù),已覆蓋占道急剎、環(huán)島繞行等典型場(chǎng)景,未來(lái)計(jì)劃擴(kuò)展至千萬(wàn)級(jí)規(guī)模,來(lái)覆蓋幾乎所有的駕駛可能性。
在WAIC現(xiàn)場(chǎng),觀眾還可以通過(guò)交互界面體驗(yàn)“虛擬駕駛”,例如在模型生成的暴雨天氣高速場(chǎng)景中,實(shí)時(shí)操控車(chē)輛應(yīng)對(duì)加塞,感受模型對(duì)物理環(huán)境的仿真精度。
向具身智能的延伸
如果說(shuō)智能汽車(chē)是“簡(jiǎn)單的具身智能”,那么機(jī)器人等硬件則需要更復(fù)雜的物理世界理解能力。
這類(lèi)具身智能面臨的核心難題是“數(shù)據(jù)維度爆炸”,即機(jī)器人的傳感器配置(視覺(jué)、觸覺(jué)、力覺(jué)等)、移動(dòng)方式(輪式、履帶式、多足式)遠(yuǎn)多于汽車(chē),且需應(yīng)對(duì)家庭、工業(yè)等多樣化場(chǎng)景,傳統(tǒng)數(shù)據(jù)采集方式成本高、效率低。更棘手的是“Sim2Real鴻溝”,即通過(guò)模擬工具生成的數(shù)據(jù)難以直接應(yīng)用于真實(shí)場(chǎng)景。
而商湯絕影的解決辦法是將輔助駕駛領(lǐng)域的“虛實(shí)融合”數(shù)據(jù)遷移到具身智能上。
首先,構(gòu)建多模態(tài)時(shí)空對(duì)齊能力。通過(guò)多傳感器融合技術(shù),模型可將視覺(jué)、觸覺(jué)等數(shù)據(jù)在時(shí)間與空間維度精準(zhǔn)匹配。
其次,生成高保真4D環(huán)境。基于動(dòng)態(tài)環(huán)境建模技術(shù),模型能實(shí)時(shí)預(yù)測(cè)物體運(yùn)動(dòng)軌跡,例如預(yù)判家庭場(chǎng)景中寵物的突然跑動(dòng)。
最后,建立閉環(huán)驗(yàn)證體系。通過(guò)強(qiáng)化學(xué)習(xí),機(jī)器人可以在虛擬環(huán)境中反復(fù)訓(xùn)練交互動(dòng)作,再遷移至真實(shí)世界。
支撐這一遷移的是商湯的具身3D資產(chǎn)庫(kù),其中包含了10萬(wàn)個(gè)真實(shí)3D資產(chǎn),涵蓋了家庭、辦公、工業(yè)等20類(lèi)場(chǎng)景的動(dòng)作數(shù)據(jù)。
更關(guān)鍵的是數(shù)據(jù)視角的完整性,模型既可生成機(jī)器人的“第一視角”,例如抓取物體的手部特寫(xiě);也能生成“第三視角”,例如上帝視角下的機(jī)器人全身動(dòng)作,從而解決了傳統(tǒng)數(shù)據(jù)視角單一的問(wèn)題。
結(jié)語(yǔ):
“絕影開(kāi)悟”的進(jìn)化路徑,本質(zhì)上是AI從數(shù)字世界走向物理世界的縮影。
商湯科技聯(lián)合創(chuàng)始人、CTO王曉剛在世界人工智能大會(huì)上表示,“絕影開(kāi)悟”世界模型的核心價(jià)值在于“將AI創(chuàng)造力轉(zhuǎn)化為生產(chǎn)力”,既為輔助駕駛提供場(chǎng)景數(shù)據(jù),也為具身智能打造數(shù)據(jù)引擎。
從輔助駕駛到機(jī)器人,從數(shù)據(jù)生成到實(shí)時(shí)交互,“絕影開(kāi)悟”的技術(shù)邏輯都圍繞一個(gè)目標(biāo):通過(guò)構(gòu)建與真實(shí)世界一致的4D模型,讓AI在虛擬環(huán)境中“學(xué)會(huì)”與物理世界交互。
當(dāng)這種能力成熟時(shí),或許我們將看到家庭機(jī)器人能精準(zhǔn)預(yù)判老人起身時(shí)的動(dòng)作輔助,工業(yè)機(jī)械臂能在復(fù)雜流水線中自主避障。而這一切的起點(diǎn),正是世界模型這個(gè)連接數(shù)字與物理世界的技術(shù)橋梁。(本文首發(fā)于鈦媒體App作者|王垚,編輯|李玉鵬)
瞰中國(guó)|雪舞傾城
瞰中國(guó)|雪舞傾城近日,隨著寒潮南下,南方多地出現(xiàn)不同程度的降雪-。雪花漫天紛飛,像一群輕盈的白蝴蝶翩翩起舞,輕柔地從天空飄落鋪滿大地,勾勒出一幅載滿詩(shī)意的寫(xiě)意畫(huà)卷。制片人:馬寶軍策劃:杜屹然統(tǒng)籌:張青編導(dǎo):張靜記者:林凱新媒體編輯:陶玲君杜利偉供稿來(lái)源:連城縣融媒體中心清流縣融媒體中心周寧縣融媒體中心邵武市融媒體中心雁峰區(qū)融媒體中心雙清區(qū)融媒體有幫助請(qǐng)點(diǎn)贊——。 下雪這一看似平凡的自然現(xiàn)象,背后蘊(yùn)含著豐富的科學(xué)奧秘_|。正如我國(guó)古人所言:“世間萬(wàn)物皆有道?!碧綄ぱ┗ǖ膴W秘,讓我們對(duì)自然充滿敬畏之心|。我們應(yīng)該珍惜大自然的饋贈(zèng),保護(hù)生態(tài)環(huán)境,與自然和諧共生|-。結(jié)語(yǔ):雪舞傾城,韻味無(wú)窮。下雪這一自然現(xiàn)象,既有神秘的面紗,又具有豐富的文化內(nèi)涵_-。讓我們?cè)谛蕾p雪花飄舞的美景還有呢?永遠(yuǎn)的秦時(shí)明月,盤(pán)點(diǎn)秦時(shí)明月十大經(jīng)典場(chǎng)景!