智東西作者陳駿達(dá)編輯心緣
智東西7月26日?qǐng)?bào)道,今天,商湯科技董事長(zhǎng)兼CEO徐立在2025世界人工智能大會(huì)(WAIC)開幕式上,發(fā)表了以《人工智能的十年演進(jìn)》為題的主旨演講。
徐立認(rèn)為,過去十年,人工智能經(jīng)歷了三次跳躍:先是從深度學(xué)習(xí)驅(qū)動(dòng)的感知智能,由CNN、ResNet等算法和ImageNet的1400萬張標(biāo)注圖片,開啟了垂直領(lǐng)域的視覺應(yīng)用。
接著2017-2018年,Transformer的出現(xiàn)帶來生成式智能。這些模型采用海量高密度文本信息進(jìn)行學(xué)習(xí),模型泛化能力、通用性不斷提升。再到今天多模態(tài)大模型、智能體、具身智能與世界模型依次登場(chǎng),普羅大眾對(duì)AI技術(shù)的認(rèn)知也來到高峰。
在AI不同階段的發(fā)展過程中,數(shù)據(jù)始終是智能的來源:感知時(shí)代靠人工標(biāo)注,“把一個(gè)人10年的知識(shí)傳給了AI”;生成式階段依賴自然語(yǔ)言,但互聯(lián)網(wǎng)上的自然語(yǔ)言數(shù)據(jù)總有用盡的一天。未來,AI技術(shù)需要轉(zhuǎn)向“真實(shí)世界互動(dòng)數(shù)據(jù)”,因?yàn)橹挥兄鲃?dòng)與環(huán)境交互才能快速進(jìn)化。
為跨越虛擬世界與現(xiàn)實(shí)世界之間的差距,商湯已經(jīng)打造了“開悟”世界模型,并于今天推出舉一反千的“開悟”平臺(tái)。這一平臺(tái)可生成符合3D真實(shí)情況、物理規(guī)律的多視角視頻,可在自動(dòng)駕駛等場(chǎng)景中實(shí)現(xiàn)AI的自舉與自學(xué)。
徐立總結(jié)道,人工智能正沿著“感知世界—理解世界—生成世界”的路徑前行,最終將與現(xiàn)實(shí)硬件交互,改變我們的世界。
以下是徐立在WAIC開幕式上的完整演講:
一、AI技術(shù)三次跳躍,智能從哪里來?
各位朋友大家好,很高興有機(jī)會(huì)在這里分享一下這個(gè)我們關(guān)于人工智能演進(jìn)的一些思考。
題目上我們加了一個(gè)人工智能的十年演進(jìn),原因是過往的十年,也是我們見證人工智能認(rèn)知變化最快的十年,另外的原因也是因?yàn)槲覀児咀隽耸辏绻歉魑活I(lǐng)導(dǎo)站在這里,那可能可以談人工智能的50年,而我們從過往的十年開始談起。
我們來看過往十年,谷歌的搜索引擎關(guān)于人工智能的熱度,你們很容易看見它有三個(gè)很明顯的跳躍,也就是在那個(gè)時(shí)間點(diǎn)上,這個(gè)普羅大眾的認(rèn)知發(fā)生了一些規(guī)?;淖兓?。
最開始從感知智能,也就是從深度學(xué)習(xí)進(jìn)入到視覺,然后再有各種算法的迭代,CNN、ResNet的發(fā)展推動(dòng)了第一波人工智能行業(yè)的發(fā)展。到2017-2018年的時(shí)候,從Transformer到自然語(yǔ)言的模型發(fā)展,我們又進(jìn)入到生成式智能的階段。
這兩個(gè)階段一直推動(dòng)到現(xiàn)在行業(yè)的發(fā)展和普羅大眾的認(rèn)知形成了高峰,從ChatGPT,以至于后ChatGPT的智能體,多模態(tài)大模型,甚至是對(duì)現(xiàn)實(shí)世界改變的具身智能以及世界模型的變化。
很有意思的是,我們一直在思考一個(gè)問題,在這個(gè)三個(gè)不同的階段當(dāng)中,智能本身從哪里來?當(dāng)然算法的迭代以及生產(chǎn)力的爆發(fā),包括說GPU的迭代是一個(gè)很重要的要素,但是本質(zhì)上還有一個(gè)要素就是AI,機(jī)器學(xué)習(xí)到底學(xué)的是什么?
從感知時(shí)代開始,其實(shí)我們得益于互聯(lián)網(wǎng)上大量的數(shù)據(jù),對(duì)現(xiàn)實(shí)世界的拷貝,已經(jīng)存在了,包括圖片、視頻。所以感知時(shí)代,我們是從標(biāo)注當(dāng)中去獲取智能,也就是AI其實(shí)是從人的標(biāo)注當(dāng)中獲取,通過大量的標(biāo)注之后訓(xùn)出一個(gè)一個(gè)模型。我們當(dāng)時(shí)推出的商湯方舟,蘊(yùn)含一萬多個(gè)模型,可以做很多不同垂直領(lǐng)域的任務(wù)。
在那個(gè)時(shí)代,機(jī)器的智能來自于學(xué)習(xí)這些東西,大概是什么樣的一個(gè)數(shù)量級(jí)。在2012年,Hinton帶領(lǐng)團(tuán)隊(duì)第一次在ImageNet上取得冠軍的時(shí)候,大概是1400萬張圖片。
如果按一個(gè)人的標(biāo)注來講,這個(gè)人的工作大概是10年左右的時(shí)間,也就是我們把一個(gè)人10年的知識(shí)傳給了AI。這個(gè)數(shù)據(jù)看上去好像很大,但實(shí)際上想一想,如果只是單人10年的數(shù)據(jù),其實(shí)做很多的泛化還是受限制。所以在那個(gè)階段,人工智能的工具屬性非常明顯,基本上是垂直領(lǐng)域的感知,也就是在很多垂直的方向上面,我們需要做專屬的模型。
二、高密度語(yǔ)言數(shù)據(jù)催生智能,多模態(tài)融合成大趨勢(shì)
到了生成式人工智能,或者更加通用的人工智能有什么區(qū)別?我覺得一個(gè)很有意思的區(qū)別,就是通用人工智能是從自然語(yǔ)言開始的,但互聯(lián)網(wǎng)上的文本大家想一想,本身就是蘊(yùn)含知識(shí)的,它不需要后加工。
雖然我們看到互聯(lián)網(wǎng)上圖片和視頻數(shù)量遠(yuǎn)大于文本的數(shù)量,但是文本的知識(shí)密度可能更高。所以如果我們以GPT-3處理7500億token來說,假設(shè)這是一個(gè)人認(rèn)認(rèn)真真作為自然語(yǔ)言創(chuàng)作者來開始寫的話,他大概要寫十萬年。也就是從十年到十萬年一萬倍的數(shù)據(jù)量差。
自然語(yǔ)言的數(shù)據(jù)密度非常高,從而使得說我們的模型泛化能力、通用性起來了。這才是推動(dòng)現(xiàn)在通用人工智能發(fā)展的一個(gè)基石,有一個(gè)很好的底座。那當(dāng)然,很容易我們就看到說,這些數(shù)據(jù)都會(huì)被用盡,圖片數(shù)據(jù)標(biāo)注是需要人來處理的,其實(shí)這也是一個(gè)人工的工作。
而自然語(yǔ)言,據(jù)說在2027~2028年,整個(gè)互聯(lián)網(wǎng)上的自然語(yǔ)言的數(shù)據(jù)都會(huì)被用盡。實(shí)際上,是語(yǔ)言生成的速度遠(yuǎn)沒有算力的生長(zhǎng)的速度來得快,那這樣顯然形成了一種模型的倒掛差。那能不能從原始的無序的圖像視頻當(dāng)中獲取更多的知識(shí)呢?是有可能的,但是這過程當(dāng)中需要非常多的工作。
我們也是在這過程當(dāng)中走一個(gè)很自然的路,就是融合我們感知的能力和我們自然語(yǔ)言的能力,形成一種原生的多模態(tài),也就是說我們構(gòu)造圖和文的連接,把圖和文生成一種更長(zhǎng)的思維鏈。然后用這個(gè)思維鏈再去不停地去激發(fā)模型的能力。
大家知道智能本身應(yīng)該是激發(fā)出來的,很難說在完全沒有基礎(chǔ)設(shè)施上面,就能夠長(zhǎng)出這個(gè)智能。當(dāng)然現(xiàn)在,剛才大家聽到可以做說遞歸的自學(xué)習(xí)等等,可以基于現(xiàn)有的模型往前推進(jìn)。
但是本質(zhì)意義上我們需要構(gòu)造一條模型演化的道路。隨著我們加入了很多圖文演示,甚至是更高階的思維鏈的時(shí)候,我們發(fā)現(xiàn)一個(gè)很有意思的現(xiàn)象。這張圖是我們要推出的日日新V6.5,最左邊這張圖特別有意思,我們同一個(gè)模型能夠做好音頻的交互能力,多模態(tài)的推理能力。但是加入了足夠多、足夠長(zhǎng)的多模態(tài)的思維鏈之后,我們的文本、純文本的推理能力也有一個(gè)很大的提升。
這就是說,其實(shí)還有很多的路線,其實(shí)能夠把互聯(lián)網(wǎng)上其他的模態(tài)的數(shù)據(jù)的知識(shí)抽離出來,融合到文本當(dāng)中,使得文本的對(duì)空間的理解,對(duì)于物理世界的理解能夠進(jìn)一步地提升,從而說這樣的一個(gè)文本模型也能夠更好地控制生成,甚至是控制圖像和視頻生成。
三、AI技術(shù)面臨“數(shù)據(jù)墻”,如何走進(jìn)物理世界?
當(dāng)然了,人類還是會(huì)面臨這樣一個(gè)缺失的問題,也就是說當(dāng)窮盡書本和互聯(lián)網(wǎng)的知識(shí)的時(shí)候,更多的智能從哪里來?第一代是標(biāo)注來,第二代自然語(yǔ)言已經(jīng)來了,第三代接下來怎么來?
那我們來看看人是怎么來學(xué)習(xí)的,對(duì)不對(duì)?人從出生開始,就是跟現(xiàn)實(shí)世界來進(jìn)行各種各樣的探索,他不是先從學(xué)語(yǔ)言開始,也不是先從學(xué)認(rèn)識(shí)東西開始,他跟世界的交互和探索已經(jīng)形成了很大的這個(gè)智能的增長(zhǎng)。這也就是說,大家很自然地想到,在圖像標(biāo)注互聯(lián)網(wǎng)文本之外,大家去采集大量的跟真實(shí)世界互動(dòng)的數(shù)據(jù)。
為什么我說要大量的呢?是因?yàn)槟阈枰剿鞑煌奈锢砜臻g,就是比如說你需要有各種各樣的姿勢(shì),各種各樣的角度,所以你的采集量會(huì)非常的大。現(xiàn)在很多機(jī)器人、具身,我覺得最大的瓶頸還是在素材上面會(huì)有很大的需求。
當(dāng)然,這個(gè)也是非常顯然的。1963年有一篇很有意思的文章叫主動(dòng)貓和被動(dòng)貓,就是他們做了一個(gè)很有意思的實(shí)驗(yàn),就是一只貓和另外一只貓通過一個(gè)軸所相連。然后一只貓是可以動(dòng)的,另外一只貓不能動(dòng),但是它們兩個(gè)看到的東西都是一樣的。
也就說同樣的視覺輸入,一只貓是可以跟現(xiàn)實(shí)世界互動(dòng),另外一只貓不行的情況下,那只會(huì)互動(dòng)的貓顯然成長(zhǎng)的速度會(huì)非常的快。所以這也是具身的來源,為什么要去做具身智能,就是因?yàn)楦F(xiàn)實(shí)世界的探索。
但還會(huì)面臨問題,因?yàn)槿绻嬲ㄟ^機(jī)械去跟現(xiàn)實(shí)世界做互動(dòng),很顯然它的探索空間需要模擬的世界太大,有時(shí)候還會(huì)有一個(gè)模擬到現(xiàn)實(shí)的這個(gè)差距叫Sim-to-RealGap。那有沒有可能通過現(xiàn)在的這種所謂的,對(duì)于現(xiàn)實(shí)世界的理解來做生成,理解生成統(tǒng)一的世界模型。是有的,但是也會(huì)面臨挑戰(zhàn)。
比如說用世界模型去生成數(shù)據(jù),這是現(xiàn)在用世界模型做了很多的叫自動(dòng)駕駛方面的領(lǐng)域的生成,也是最開始我們做這個(gè)模型的生成。生成的質(zhì)量很高,但是很顯然它會(huì)違背物理的法則。譬如說十字路口車輛的互相穿越,有一種幽靈車的感覺,還有一些隨機(jī)失控很難調(diào)整。而且大家知道生成視頻再好的模型,它生成視頻的響應(yīng)速度會(huì)比較慢。
所以如果你需要來去對(duì)生成視頻進(jìn)行實(shí)時(shí)交互的話,往往要等,而且可能還需要抽卡,抽出來一個(gè)視頻也不知道是什么。比如說抽出一個(gè)大象跟小松鼠在玩蹺蹺板,那這個(gè)就很隨機(jī)。
所以那怎么辦?那就是需要有個(gè)很好的對(duì)現(xiàn)實(shí)世界理解的模型,加上對(duì)3D理解的模型,來指導(dǎo)這個(gè)部分的能力。那么我們推出我們自己的“開悟”世界模型,用我們的日日新V6.5去賦能?!伴_悟”世界模型也是個(gè)視頻生成模型,但是它考慮了時(shí)間、空間的一致性。
我們舉一個(gè)簡(jiǎn)單的例子。自動(dòng)駕駛里面有一個(gè)叫7路攝像頭視角的車的數(shù)據(jù)采集,很顯然需要花大量的力氣來采集,但是我們生成的,就是可以用自然語(yǔ)言去生成右邊的7個(gè)攝像頭生成的數(shù)據(jù),我們來看一下細(xì)節(jié)。
首先來看,這個(gè)車從一個(gè)角度開到另外一個(gè)角度的時(shí)候,在不同的攝像頭里的位置,甚至都可以模擬出攝像頭的形變,空間一致性表現(xiàn)非常好,只有一個(gè)完全對(duì)3DGS有充分理解之后才能表達(dá)的,所以這也是這個(gè)模型本身很強(qiáng)的一個(gè)能力,否則沒有辦法用來做下一個(gè)階段的訓(xùn)練提升。
當(dāng)然還有一種是對(duì)空間的一致性,比如這個(gè)車一會(huì)在前,一會(huì)在后,不同的攝像頭拍到這個(gè)車的不同時(shí)刻,比如車牌應(yīng)該都要一樣。如果我們有很好的視頻生成引擎,左邊生成一個(gè),然后方向盤一轉(zhuǎn),右邊一看那棵樹就飛走了,可能AI也搞糊涂了,這車也不會(huì)開,很顯然時(shí)空的一致性要達(dá)到各種各樣的可控。
我來舉一個(gè)很有意思的例子,自動(dòng)駕駛里的一個(gè)CornerCase——加塞兒(Cut-in),在自動(dòng)駕駛里非常普遍。大家都覺得這可能是個(gè)難題,對(duì)于人類駕駛來講也是個(gè)難題。新司機(jī)不敢加塞,躲在后面半天不能走,老司機(jī)加塞,但事故率有多少?22%的事故來自于加塞,所以自動(dòng)駕駛得學(xué)習(xí)加塞。
怎么做呢?如果太保守,開不動(dòng);太激進(jìn),可能得撞。比如這個(gè)Waymo的車很有意思,兩輛車都想加塞,兩個(gè)都卡,又要加塞又都卡了,形成一種博弈,然后就循環(huán)了。所以在這種過程中,它需要大量的數(shù)據(jù)去訓(xùn)練這種場(chǎng)景。但是如果真的到路上去采這個(gè)數(shù)據(jù),非常難采大量的數(shù)據(jù),加塞的數(shù)據(jù)在里面占的比例比較少,那怎么辦?
那么世界模型能不能去生成7個(gè)攝像頭的加塞視頻?我們來看一看,這個(gè)是一個(gè)大型車輛的加塞,描述了我們的方向、時(shí)間、角度。一起看下,這個(gè)大巴士從右邊加塞進(jìn)來,保證了一致性,那可以大生成大量的這個(gè)視頻,而且關(guān)鍵是要可控穩(wěn)定。
什么叫可控穩(wěn)定?我們可以調(diào)節(jié)各種各樣生成的可能性,譬如生成各種不同光照的比如白天、黑夜,就不用再去開了;各種天氣的比如晴天、陰天、雨天;各種道路結(jié)構(gòu)的,彎道、直道,甚至可以開到F1賽道上都沒有問題。
F1賽道加塞也是個(gè)常態(tài)。各種各樣的道路狀況,還有開車的速度,開進(jìn)來速度快、速度慢都要去做調(diào)整。還有車型包括小的、大的,當(dāng)然還有各種各樣的可能性。
所以既然我們能生成這樣加塞的視頻,我們就可以走到一個(gè)探索世界的可能性,這是我們最早做無人駕駛的時(shí)候,做一個(gè)模擬器,大家都聽過機(jī)器人有這樣的一個(gè)模擬平臺(tái),所以機(jī)器人可以在模擬平臺(tái)上做什么?
強(qiáng)化學(xué)習(xí),之后再運(yùn)用到現(xiàn)實(shí)世界,但往往這樣的一個(gè)過程會(huì)有個(gè)SimtoReal的Gap。所以我們?cè)谶@種模擬仿真,甚至是高精度的3D模擬仿真中做的這個(gè)算法、探索,這個(gè)探索的好處是它可以跟真實(shí)世界互動(dòng),有強(qiáng)化學(xué)習(xí)來進(jìn)行這樣的探索,但是它用到現(xiàn)實(shí)世界中會(huì)有很大的差距。
今天隨著我們基模型的能力越來越強(qiáng),對(duì)世界的理解越來越深刻,理解跟生成的統(tǒng)一性就使得我們可以有這樣交互的可能性,這個(gè)視頻非常的特別,也是我們今天會(huì)發(fā)的一款產(chǎn)品,可以看到它的輸入是什么?方向盤、剎車以及油門這三個(gè)輸入,控制了現(xiàn)在的這個(gè)視頻生成。
這是一個(gè)看上去非常真實(shí)的場(chǎng)景,七個(gè)攝像頭的視角,你就可以手把著方向盤來控制它的方向,在現(xiàn)實(shí)的街景場(chǎng)景中去開,然后邊上有各種各樣的光照條件、車輛條件,每個(gè)攝像頭有不同的視角,并且一致化的統(tǒng)一,我覺得這就是在真實(shí)的世界上開極品飛車。
但有了這樣的功能之后,是不是可以輔助到很多行業(yè)的進(jìn)步,對(duì)真實(shí)世界的探索有更大的可能性,我們就可以叫AI自舉,用部分?jǐn)?shù)據(jù)生成更多數(shù)據(jù),然后再往前走,就是SelfLearning,有那么一點(diǎn)可能。
所以我們就在今天推出舉一反千“開悟”平臺(tái),這個(gè)平臺(tái)現(xiàn)在誰(shuí)都可以使用,用自然語(yǔ)言的模式描述場(chǎng)景,描述你想要的視頻段,它可以生成非常多不同視角符合3D真實(shí)情況的模型。我們要求的不是視頻的質(zhì)量達(dá)到電影級(jí)別,而是它符合物理的規(guī)則、物理的定律,并且能夠真正意義切進(jìn)用戶的使用場(chǎng)景,讓你在真實(shí)的世界中開極品飛車。
最后我們來看AI發(fā)展的三個(gè)階段,感知世界,更好地理解世界才能做生成世界,最后可能和現(xiàn)實(shí)的硬件交互來改變我們的世界。