百秀慧
“端到端的自動駕駛,本質(zhì)上是模仿我們?nèi)祟惖男袨?。但它始終面臨著兩個比較重要的問題?!痹诮臻_幕的2025世界人工智能大會WAIC上,商湯絕影CEO、商湯科技聯(lián)合創(chuàng)始人王曉剛發(fā)表了一場主題演講。
“第一個問題,是需要采集海量的數(shù)據(jù)。我們知道特斯拉有700萬臺的量產(chǎn)車去回流大量數(shù)據(jù),這是遠(yuǎn)遠(yuǎn)超出我們擁有的量產(chǎn)車輛數(shù)據(jù)的體量和規(guī)模的。第二個呢,它還需要覆蓋各種高風(fēng)險的場景數(shù)據(jù)?!?/p>
王曉剛提到,今天人類駕駛的行為中,只有極少部分?jǐn)?shù)據(jù)能對端到端產(chǎn)生訓(xùn)練價值,這就是數(shù)據(jù)瓶頸。而且,研究者還不能確保訓(xùn)練好的模型能解決特定場景,里面有概率性的問題,特定場景也很難復(fù)現(xiàn)。
因而,此次商湯絕影在WAIC2025亮相的行業(yè)首個已量產(chǎn)、可交互的“絕影開悟”世界模型,正是為了解決這些痛點而誕生的。
這也是輔助駕駛領(lǐng)域首個生成式世界模型產(chǎn)品平臺,配合該公司發(fā)布的業(yè)內(nèi)最大規(guī)模的生成式駕駛數(shù)據(jù)集“WorldSim-Drive”,能大力賦能輔助駕駛行業(yè)。
“商湯的世界模型正在將AI的創(chuàng)造力轉(zhuǎn)化為生產(chǎn)力,既為輔助駕駛生成千萬級場景數(shù)據(jù)、打造實時交互訓(xùn)練場,同時也打造具身智能的數(shù)據(jù)引擎,搭建AI從數(shù)字世界通往真實物理世界的橋梁,邁向具身智能的新未來。”王曉剛補(bǔ)充。
在今年WAIC2025的商湯絕影展臺上,現(xiàn)場觀眾已經(jīng)體驗到了這個世界模型產(chǎn)品平臺。它的交互界面簡潔易懂,只要輸入文本或點選場景圖片,就能生成的對應(yīng)的場景視頻,體驗到行業(yè)領(lǐng)先的輔助駕駛數(shù)據(jù)集性能。
值得一提的是,“絕影開悟”世界模型的生產(chǎn)效率很高,基于一張A100的GPU,它每天生成的數(shù)據(jù)就相當(dāng)于10臺真實車或是100臺路測車的數(shù)據(jù)采集能力,比得上500臺量產(chǎn)車。根據(jù)官方數(shù)據(jù),現(xiàn)在商湯絕影有20%的數(shù)據(jù)都是通過世界模型生產(chǎn)的。
為AI打造4D實時交互訓(xùn)練場
在今年的WAIC現(xiàn)場,各種會思考、會說話、會干活、會打架的機(jī)器人登臺亮相,博得了無數(shù)人的關(guān)注。但我們距離它們走進(jìn)千行百業(yè)、千家萬戶的那一天,依然有著不小的距離。
最大的障礙之一,就是訓(xùn)練數(shù)據(jù)嚴(yán)重缺失。就像銀河通用機(jī)器人創(chuàng)始人及CTO王鶴提到的,今天最頭部的機(jī)器人企業(yè)年出貨量也只有四位數(shù),其采集的真實數(shù)據(jù)相當(dāng)有限,因此他認(rèn)為,具身智能的訓(xùn)練數(shù)據(jù)99%都需來源于合成。
“正是自然語言的高知識密度,賦予了模型強(qiáng)大的泛化與通用能力,成為當(dāng)今通用AI發(fā)展的關(guān)鍵基石?!鄙虦萍级麻L兼CEO徐立認(rèn)為,如今AI模型強(qiáng)大的泛化與通用能力,正是得益于GPT-3處理的文本量相當(dāng)于人類十萬年的創(chuàng)作積累,但當(dāng)前自然語言數(shù)據(jù)可能于2027至2028年耗盡,“視覺數(shù)據(jù)雖豐富,卻難以有效提煉知識。事實上,視覺數(shù)據(jù)的產(chǎn)生速度遠(yuǎn)落后于算力增長速度,導(dǎo)致模型數(shù)據(jù)需求出現(xiàn)‘倒掛’?!?/p>
人類沉浸在虛擬世界中游戲、訓(xùn)練的場景,大家如今已經(jīng)不陌生。那要是反過來,讓AI在媲美真實物理世界中的虛擬模型中,不斷自我學(xué)習(xí),進(jìn)化出適應(yīng)真實世界的能力,是不是就能解決很大問題?其背后技術(shù)的核心關(guān)鍵點又在哪里?
王曉剛認(rèn)為,首先,這個世界模型必須具有超大尺度的4D空間重建能力。比如,“絕影開悟”能夠進(jìn)行最高可達(dá)1km2的真實世界高精度重建,將更多真實空間視角提供給車端模型。
“比如我們可以在模型中生成各種碰撞場景,這些都是非常高風(fēng)險的,在真實生活中采集這類數(shù)據(jù),代價是非常高的?!彼^續(xù)舉例,“另外呢,我們也可以對視頻進(jìn)行任意編輯,比如移除任何一個車輛,增加一個車輛,或者是改變車輛的類型,或是隨意控制剎車、轉(zhuǎn)向加速。”
他還提到,商湯如今正在將這個世界模型產(chǎn)品平臺化,“把我們的API(應(yīng)用程序開發(fā)接口)釋放給我們的客戶后,就能夠隨意輸入你想要的各種要素,靈活地去定制?!?/p>
“所以說,如果我們能夠引入世界模型,模擬我們的大千世界的各種變化,去生成十幾個攝像頭多模態(tài)的數(shù)據(jù),并做到精準(zhǔn)可控,讓端到端模型進(jìn)行強(qiáng)化學(xué)習(xí),他就可以實現(xiàn)自主的進(jìn)化,去打破人類駕值行為的上限?!痹谕鯐詣偪磥恚@一平臺不僅能應(yīng)用在智能輔助駕駛的訓(xùn)練上,也可以幫助具身智能領(lǐng)域,讓機(jī)器人更好地演進(jìn)。
未來人類會因何而不同?
上世紀(jì)50年代,當(dāng)艾倫·圖靈提出“機(jī)器可以思考嗎?”這個問題時,可能很難想象,半個世紀(jì)后AI已經(jīng)學(xué)會了推理,而機(jī)器人已經(jīng)實現(xiàn)了很多之前只存在于科幻小說中的功能。
到了今天,當(dāng)2025WAIC的觀眾為展覽現(xiàn)場的機(jī)器人歡呼時,另一些學(xué)界大咖如AI教父辛頓GeofrreyHinton則提醒人們,與AI的關(guān)系要避免陷入養(yǎng)虎為患的境地。
那么,在未來的人機(jī)共存時代,有什么方法能讓人類保持獨特性呢?
在王曉剛看來,這涉及智能的幾個層次:“依次是從感知到行為,其實還有一個更高的層次,就是定義規(guī)則。比如AlphGo,我們定義了圍棋的規(guī)則,它就在這個規(guī)則范圍之內(nèi)產(chǎn)生各種各樣的智能。我覺得,將來機(jī)器人一定會在它跟人和環(huán)境交互當(dāng)中產(chǎn)生新的智能,這里比較重要的是,我們要去給它定義規(guī)則、它的價值觀和文化,讓它在規(guī)則允許的范圍內(nèi)產(chǎn)生規(guī)則,從上而下去約束它。”
采寫:南都·灣財社記者胡雯雯
楚瀠佳作頻出,《鳳啼長安》劇情精彩,好評多,值得一看!
第一本作者:楚瀠簡介:超好看的古言寵文,特別是《鳳啼長安》,又甜又蘇,全程姨母笑-。狀元郎準(zhǔn)備回鄉(xiāng),迎娶青梅竹馬,誰知半路一紙圣旨,將其詔回京城,原來,是皇上要將其招為駙馬……強(qiáng)扭的瓜,一個早死,一個看盡亂世悲涼。大長公主重生在十五歲指婚那一天。李萱兒:我回來打皇兄的,不招駙馬。希望你能滿意——。
繼《淑女飄飄拳》上榜后,楚瀠的新書更好看!
甜寵:公主重生在十五歲,拒了曾心心念念的狀元郎《鳳啼長安》第一本:《妻居一品》作者:夜惠美簡介:附身貪戀榮華的女配身上,沒人能選擇生母,但可選擇人生道路,身處絕境又何妨,命運自有我做主。斬荊棘破圈套,我命由我不由人精彩內(nèi)容:像您,我可不像父親?!绷厦佳壅归_“娘哪里懂得多?多看看,..
優(yōu)質(zhì)古言文:《侯門閨殺》大婚前夕,被未婚夫與親妹羞辱投湖而亡
【同類型佳作】《鳳啼長安》楚瀠)、《唐門毒宗》粉筆琴)【文案簡介】大喜之日,滅門了-。底層草根,當(dāng)門主了-。蠢萌村姑,嫁天才男神。撼動天下,她要云卷云舒-。云卷云舒,她又拋夫棄子了……嗯,她跑了……-- 女主成長型,純美樂觀正能量。背景為五代十國。【文案簡介】狀元郎鄭顥準(zhǔn)備回鄉(xiāng),迎娶青梅竹馬是什么。
來源:紅網(wǎng)
作者:楊定娥
編輯:甲勇男
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。