“端到端的自動駕駛,本質上是模仿我們人類的行為。但它始終面臨著兩個比較重要的問題。”在近日開幕的2025世界人工智能大會WAIC上,商湯絕影CEO、商湯科技聯(lián)合創(chuàng)始人王曉剛發(fā)表了一場主題演講。
“第一個問題,是需要采集海量的數(shù)據。我們知道特斯拉有700萬臺的量產車去回流大量數(shù)據,這是遠遠超出我們擁有的量產車輛數(shù)據的體量和規(guī)模的。第二個呢,它還需要覆蓋各種高風險的場景數(shù)據?!?/p>
王曉剛提到,今天人類駕駛的行為中,只有極少部分數(shù)據能對端到端產生訓練價值,這就是數(shù)據瓶頸。而且,研究者還不能確保訓練好的模型能解決特定場景,里面有概率性的問題,特定場景也很難復現(xiàn)。
因而,此次商湯絕影在WAIC2025亮相的行業(yè)首個已量產、可交互的“絕影開悟”世界模型,正是為了解決這些痛點而誕生的。
這也是輔助駕駛領域首個生成式世界模型產品平臺,配合該公司發(fā)布的業(yè)內最大規(guī)模的生成式駕駛數(shù)據集“WorldSim-Drive”,能大力賦能輔助駕駛行業(yè)。
“商湯的世界模型正在將AI的創(chuàng)造力轉化為生產力,既為輔助駕駛生成千萬級場景數(shù)據、打造實時交互訓練場,同時也打造具身智能的數(shù)據引擎,搭建AI從數(shù)字世界通往真實物理世界的橋梁,邁向具身智能的新未來。”王曉剛補充。
在今年WAIC2025的商湯絕影展臺上,現(xiàn)場觀眾已經體驗到了這個世界模型產品平臺。它的交互界面簡潔易懂,只要輸入文本或點選場景圖片,就能生成的對應的場景視頻,體驗到行業(yè)領先的輔助駕駛數(shù)據集性能。
值得一提的是,“絕影開悟”世界模型的生產效率很高,基于一張A100的GPU,它每天生成的數(shù)據就相當于10臺真實車或是100臺路測車的數(shù)據采集能力,比得上500臺量產車。根據官方數(shù)據,現(xiàn)在商湯絕影有20%的數(shù)據都是通過世界模型生產的。
為AI打造4D實時交互訓練場
在今年的WAIC現(xiàn)場,各種會思考、會說話、會干活、會打架的機器人登臺亮相,博得了無數(shù)人的關注。但我們距離它們走進千行百業(yè)、千家萬戶的那一天,依然有著不小的距離。
最大的障礙之一,就是訓練數(shù)據嚴重缺失。就像銀河通用機器人創(chuàng)始人及CTO王鶴提到的,今天最頭部的機器人企業(yè)年出貨量也只有四位數(shù),其采集的真實數(shù)據相當有限,因此他認為,具身智能的訓練數(shù)據99%都需來源于合成。
“正是自然語言的高知識密度,賦予了模型強大的泛化與通用能力,成為當今通用AI發(fā)展的關鍵基石?!鄙虦萍级麻L兼CEO徐立認為,如今AI模型強大的泛化與通用能力,正是得益于GPT-3處理的文本量相當于人類十萬年的創(chuàng)作積累,但當前自然語言數(shù)據可能于2027至2028年耗盡,“視覺數(shù)據雖豐富,卻難以有效提煉知識。事實上,視覺數(shù)據的產生速度遠落后于算力增長速度,導致模型數(shù)據需求出現(xiàn)‘倒掛’?!?/p>
人類沉浸在虛擬世界中游戲、訓練的場景,大家如今已經不陌生。那要是反過來,讓AI在媲美真實物理世界中的虛擬模型中,不斷自我學習,進化出適應真實世界的能力,是不是就能解決很大問題?其背后技術的核心關鍵點又在哪里?
王曉剛認為,首先,這個世界模型必須具有超大尺度的4D空間重建能力。比如,“絕影開悟”能夠進行最高可達1km2的真實世界高精度重建,將更多真實空間視角提供給車端模型。
“比如我們可以在模型中生成各種碰撞場景,這些都是非常高風險的,在真實生活中采集這類數(shù)據,代價是非常高的?!彼^續(xù)舉例,“另外呢,我們也可以對視頻進行任意編輯,比如移除任何一個車輛,增加一個車輛,或者是改變車輛的類型,或是隨意控制剎車、轉向加速?!?/p>
他還提到,商湯如今正在將這個世界模型產品平臺化,“把我們的API(應用程序開發(fā)接口)釋放給我們的客戶后,就能夠隨意輸入你想要的各種要素,靈活地去定制?!?/p>
“所以說,如果我們能夠引入世界模型,模擬我們的大千世界的各種變化,去生成十幾個攝像頭多模態(tài)的數(shù)據,并做到精準可控,讓端到端模型進行強化學習,他就可以實現(xiàn)自主的進化,去打破人類駕值行為的上限?!痹谕鯐詣偪磥恚@一平臺不僅能應用在智能輔助駕駛的訓練上,也可以幫助具身智能領域,讓機器人更好地演進。
未來人類會因何而不同?
上世紀50年代,當艾倫·圖靈提出“機器可以思考嗎?”這個問題時,可能很難想象,半個世紀后AI已經學會了推理,而機器人已經實現(xiàn)了很多之前只存在于科幻小說中的功能。
到了今天,當2025WAIC的觀眾為展覽現(xiàn)場的機器人歡呼時,另一些學界大咖如AI教父辛頓GeofrreyHinton則提醒人們,與AI的關系要避免陷入養(yǎng)虎為患的境地。
那么,在未來的人機共存時代,有什么方法能讓人類保持獨特性呢?
在王曉剛看來,這涉及智能的幾個層次:“依次是從感知到行為,其實還有一個更高的層次,就是定義規(guī)則。比如AlphGo,我們定義了圍棋的規(guī)則,它就在這個規(guī)則范圍之內產生各種各樣的智能。我覺得,將來機器人一定會在它跟人和環(huán)境交互當中產生新的智能,這里比較重要的是,我們要去給它定義規(guī)則、它的價值觀和文化,讓它在規(guī)則允許的范圍內產生規(guī)則,從上而下去約束它。”
采寫:南都·灣財社記者胡雯雯