P1-13電影版你體內(nèi)明明關(guān)押著幾百頭兇獸,卻始終無法覺醒獸魂之力成為御獸師
“端到端的自動(dòng)駕駛,本質(zhì)上是模仿我們?nèi)祟惖男袨?。但它始終面臨著兩個(gè)比較重要的問題。”在近日開幕的2025世界人工智能大會(huì)WAIC上,商湯絕影CEO、商湯科技聯(lián)合創(chuàng)始人王曉剛發(fā)表了一場(chǎng)主題演講。
“第一個(gè)問題,是需要采集海量的數(shù)據(jù)。我們知道特斯拉有700萬臺(tái)的量產(chǎn)車去回流大量數(shù)據(jù),這是遠(yuǎn)遠(yuǎn)超出我們擁有的量產(chǎn)車輛數(shù)據(jù)的體量和規(guī)模的。第二個(gè)呢,它還需要覆蓋各種高風(fēng)險(xiǎn)的場(chǎng)景數(shù)據(jù)。”
王曉剛提到,今天人類駕駛的行為中,只有極少部分?jǐn)?shù)據(jù)能對(duì)端到端產(chǎn)生訓(xùn)練價(jià)值,這就是數(shù)據(jù)瓶頸。而且,研究者還不能確保訓(xùn)練好的模型能解決特定場(chǎng)景,里面有概率性的問題,特定場(chǎng)景也很難復(fù)現(xiàn)。
因而,此次商湯絕影在WAIC2025亮相的行業(yè)首個(gè)已量產(chǎn)、可交互的“絕影開悟”世界模型,正是為了解決這些痛點(diǎn)而誕生的。
這也是輔助駕駛領(lǐng)域首個(gè)生成式世界模型產(chǎn)品平臺(tái),配合該公司發(fā)布的業(yè)內(nèi)最大規(guī)模的生成式駕駛數(shù)據(jù)集“WorldSim-Drive”,能大力賦能輔助駕駛行業(yè)。
“商湯的世界模型正在將AI的創(chuàng)造力轉(zhuǎn)化為生產(chǎn)力,既為輔助駕駛生成千萬級(jí)場(chǎng)景數(shù)據(jù)、打造實(shí)時(shí)交互訓(xùn)練場(chǎng),同時(shí)也打造具身智能的數(shù)據(jù)引擎,搭建AI從數(shù)字世界通往真實(shí)物理世界的橋梁,邁向具身智能的新未來?!蓖鯐詣傃a(bǔ)充。
在今年WAIC2025的商湯絕影展臺(tái)上,現(xiàn)場(chǎng)觀眾已經(jīng)體驗(yàn)到了這個(gè)世界模型產(chǎn)品平臺(tái)。它的交互界面簡(jiǎn)潔易懂,只要輸入文本或點(diǎn)選場(chǎng)景圖片,就能生成的對(duì)應(yīng)的場(chǎng)景視頻,體驗(yàn)到行業(yè)領(lǐng)先的輔助駕駛數(shù)據(jù)集性能。
值得一提的是,“絕影開悟”世界模型的生產(chǎn)效率很高,基于一張A100的GPU,它每天生成的數(shù)據(jù)就相當(dāng)于10臺(tái)真實(shí)車或是100臺(tái)路測(cè)車的數(shù)據(jù)采集能力,比得上500臺(tái)量產(chǎn)車。根據(jù)官方數(shù)據(jù),現(xiàn)在商湯絕影有20%的數(shù)據(jù)都是通過世界模型生產(chǎn)的。
為AI打造4D實(shí)時(shí)交互訓(xùn)練場(chǎng)
在今年的WAIC現(xiàn)場(chǎng),各種會(huì)思考、會(huì)說話、會(huì)干活、會(huì)打架的機(jī)器人登臺(tái)亮相,博得了無數(shù)人的關(guān)注。但我們距離它們走進(jìn)千行百業(yè)、千家萬戶的那一天,依然有著不小的距離。
最大的障礙之一,就是訓(xùn)練數(shù)據(jù)嚴(yán)重缺失。就像銀河通用機(jī)器人創(chuàng)始人及CTO王鶴提到的,今天最頭部的機(jī)器人企業(yè)年出貨量也只有四位數(shù),其采集的真實(shí)數(shù)據(jù)相當(dāng)有限,因此他認(rèn)為,具身智能的訓(xùn)練數(shù)據(jù)99%都需來源于合成。
“正是自然語言的高知識(shí)密度,賦予了模型強(qiáng)大的泛化與通用能力,成為當(dāng)今通用AI發(fā)展的關(guān)鍵基石?!鄙虦萍级麻L(zhǎng)兼CEO徐立認(rèn)為,如今AI模型強(qiáng)大的泛化與通用能力,正是得益于GPT-3處理的文本量相當(dāng)于人類十萬年的創(chuàng)作積累,但當(dāng)前自然語言數(shù)據(jù)可能于2027至2028年耗盡,“視覺數(shù)據(jù)雖豐富,卻難以有效提煉知識(shí)。事實(shí)上,視覺數(shù)據(jù)的產(chǎn)生速度遠(yuǎn)落后于算力增長(zhǎng)速度,導(dǎo)致模型數(shù)據(jù)需求出現(xiàn)‘倒掛’。”
人類沉浸在虛擬世界中游戲、訓(xùn)練的場(chǎng)景,大家如今已經(jīng)不陌生。那要是反過來,讓AI在媲美真實(shí)物理世界中的虛擬模型中,不斷自我學(xué)習(xí),進(jìn)化出適應(yīng)真實(shí)世界的能力,是不是就能解決很大問題?其背后技術(shù)的核心關(guān)鍵點(diǎn)又在哪里?
王曉剛認(rèn)為,首先,這個(gè)世界模型必須具有超大尺度的4D空間重建能力。比如,“絕影開悟”能夠進(jìn)行最高可達(dá)1km2的真實(shí)世界高精度重建,將更多真實(shí)空間視角提供給車端模型。
“比如我們可以在模型中生成各種碰撞場(chǎng)景,這些都是非常高風(fēng)險(xiǎn)的,在真實(shí)生活中采集這類數(shù)據(jù),代價(jià)是非常高的?!彼^續(xù)舉例,“另外呢,我們也可以對(duì)視頻進(jìn)行任意編輯,比如移除任何一個(gè)車輛,增加一個(gè)車輛,或者是改變車輛的類型,或是隨意控制剎車、轉(zhuǎn)向加速?!?/p>
他還提到,商湯如今正在將這個(gè)世界模型產(chǎn)品平臺(tái)化,“把我們的API(應(yīng)用程序開發(fā)接口)釋放給我們的客戶后,就能夠隨意輸入你想要的各種要素,靈活地去定制?!?/p>
“所以說,如果我們能夠引入世界模型,模擬我們的大千世界的各種變化,去生成十幾個(gè)攝像頭多模態(tài)的數(shù)據(jù),并做到精準(zhǔn)可控,讓端到端模型進(jìn)行強(qiáng)化學(xué)習(xí),他就可以實(shí)現(xiàn)自主的進(jìn)化,去打破人類駕值行為的上限。”在王曉剛看來,這一平臺(tái)不僅能應(yīng)用在智能輔助駕駛的訓(xùn)練上,也可以幫助具身智能領(lǐng)域,讓機(jī)器人更好地演進(jìn)。
未來人類會(huì)因何而不同?
上世紀(jì)50年代,當(dāng)艾倫·圖靈提出“機(jī)器可以思考嗎?”這個(gè)問題時(shí),可能很難想象,半個(gè)世紀(jì)后AI已經(jīng)學(xué)會(huì)了推理,而機(jī)器人已經(jīng)實(shí)現(xiàn)了很多之前只存在于科幻小說中的功能。
到了今天,當(dāng)2025WAIC的觀眾為展覽現(xiàn)場(chǎng)的機(jī)器人歡呼時(shí),另一些學(xué)界大咖如AI教父辛頓GeofrreyHinton則提醒人們,與AI的關(guān)系要避免陷入養(yǎng)虎為患的境地。
那么,在未來的人機(jī)共存時(shí)代,有什么方法能讓人類保持獨(dú)特性呢?
在王曉剛看來,這涉及智能的幾個(gè)層次:“依次是從感知到行為,其實(shí)還有一個(gè)更高的層次,就是定義規(guī)則。比如AlphGo,我們定義了圍棋的規(guī)則,它就在這個(gè)規(guī)則范圍之內(nèi)產(chǎn)生各種各樣的智能。我覺得,將來機(jī)器人一定會(huì)在它跟人和環(huán)境交互當(dāng)中產(chǎn)生新的智能,這里比較重要的是,我們要去給它定義規(guī)則、它的價(jià)值觀和文化,讓它在規(guī)則允許的范圍內(nèi)產(chǎn)生規(guī)則,從上而下去約束它?!?/p>
采寫:南都·灣財(cái)社記者胡雯雯