去年這個時候,愛范兒和董車會在理想北京研發(fā)中心與理想輔助駕駛團隊進行了一場交流,當時理想輔助駕駛的新技術(shù)架構(gòu)「端到端+VLM視覺語言模型」即將上車,理想輔助駕駛團隊當時的表述是:
「端到端+VLM視覺語言模型」背后的理論框架,是自動駕駛的「終極答案」。
隨著「端到端+VLM視覺語言模型」的技術(shù)架構(gòu)過渡到了VLA(Vision-Language-Action,視覺語言動作模型),我們離「終極答案」又進了一步。
按照李想和理想輔助駕駛團隊的說法,這是理想輔助駕駛能力從「猴子」階段,進化到「人類」階段的關(guān)鍵一步。今天同期,我們又來到了理想北京研發(fā)中,繼續(xù)和理想輔助駕駛團隊聊這個領(lǐng)域的新動向。
▲理想汽車自動駕駛研發(fā)高級副總裁郎咸朋
輔助駕駛里,猴子和人類有什么區(qū)別?
去年理想輔助駕駛方案切換到「端到端+VLM視覺語言模型」之前,采用的是業(yè)界通用的「感知Perception—規(guī)劃Planning—控制Control」技術(shù)架構(gòu),這個架構(gòu)依賴工程師根據(jù)現(xiàn)實各種各樣的交通情況來編寫對應的規(guī)則指導汽車的控制,但難以窮盡現(xiàn)實所有交通情況。
這是輔助駕駛的「機械時期」,輔助駕駛只會應付有對應規(guī)則的情況,沒有思考和學習的能力。
「端到端+VLM視覺語言模型」是輔助駕駛的「猴子時期」,相比于機械,猴子要更聰明,也有一些模仿和學習的能力,當然,猴子也更好動更不聽話。
「端到端+VLM視覺語言模型」的本質(zhì)就是「模仿學習」,依賴大量人類駕駛數(shù)據(jù)進行訓練,數(shù)據(jù)的數(shù)量和質(zhì)量決定性能。并且因為安全考慮,在這個架構(gòu)中,負責復雜場景的VLM視覺語言模型并不能參與控車,只是提供決策和軌跡。
VLA(Vision-Language-Action,視覺語言動作模型)則是輔助駕駛的「人類時期」,擁有了「能思考、能溝通、能記憶、能自我提升」的能力。
猴子經(jīng)歷了漫長的變化才變成人類,理論上「端到端+VLM視覺語言模型」的「模仿學習」也可以在漫長的歲月里學會人類幾乎所有的駕駛數(shù)據(jù),做到行為上幾乎像個人。
但代價就是「時間」。
理想汽車自動駕駛研發(fā)高級副總裁郎咸朋說:
我們?nèi)ツ陮嶋H的端到端MPI(平均接管里程),去年7月份第一個版本MPI大概在十幾公里,當時已經(jīng)覺得挺不錯的,因為我們的無圖版本迭代了很長時間,綜合MPI(高速+城市)也就10公里左右。從100萬到200萬Clips(用于訓練端到端輔助駕駛的視頻片段),再到1000萬Clips,隨著數(shù)據(jù)量上升,今年年初,MPI達到100公里,7個月MPI翻了10倍,平均一個月翻一點幾倍。但是到了1000萬Clips之后,我們發(fā)現(xiàn)一個問題,只增長數(shù)據(jù)量是沒有用的,有價值的數(shù)據(jù)越來越少。這就跟考試一樣,不及格的時候,隨便學一學分就提升非??臁.斂嫉桨司攀至?,再往上提5分、10分,是很難的。這時候我們使用了超級對齊,強制讓模型輸出符合人類要求的結(jié)果。另外,我們也篩選了一些數(shù)據(jù)補充到超級對齊里,讓模型能力進一步提升,這樣做是有一定效果的,但我們大概從今年3月份到7月底,花了5個月時間,模型性能才提升了2倍左右。
這是「端到端+VLM視覺語言模型」技術(shù)架構(gòu)在飛速進步后遇到的第一個問題:越往后,有用數(shù)據(jù)越稀少,模型性能進步的速度也越慢。
而其本質(zhì)問題也隨之暴露出來,郎咸朋說:
本質(zhì)來看,現(xiàn)在端到端的這套模仿學習并不具備深度的邏輯思考能力,就像猴子開車一樣。喂猴子一些香蕉,它可能會按照你的意圖做一些行為,但并不知道自己為什么要做這些行為,一敲鑼它就過來,一打鼓它就跳舞,但不知道為什么要跳舞。所以說端到端架構(gòu)不具備深度思考能力,頂多算是一個應激反應,就是給一個輸入,模型給一個輸出,這背后沒有深度邏輯。
這也是為什么要在端到端大模型之外再加一個VLM視覺語言模型的緣故,VLM視覺語言模型具有更強的理解和思考能力,能提供更好的決策。但這個模型一是思考得慢,二是和端到端大模型耦合得不夠深,很多時候端到端大模型理解和接受不了VLM視覺語言模型的決策。
去年這個時候,理想輔助駕駛團隊就說過:
以后兩個趨勢,第一是模型規(guī)模變大,系統(tǒng)一和系統(tǒng)二現(xiàn)在還是端到端加VLM兩個模型,這兩個模型有可能合一,目前是比較松耦合,將來可以做比較緊耦合的。第二方面也可以借鑒現(xiàn)在多模態(tài)模型的大模型發(fā)展趨勢,它們就朝這種原生多模態(tài)走,既能做語言也能做語音,也能做視覺,也能做激光雷達,這是將來要思考的事情。
趨勢很快就變成了現(xiàn)實。
郎咸鵬也說了為什么要從端到端+VLM切換到VLA的原因:
去年做端到端的時候一直也在反思,是不是端到端就夠了,如果不夠的話我們還需要再做什么。我們一直在做VLA的一些預研,其實VLA的預研代表的是我們對人工智能的理解并不是一個模仿學習,一定像人類一樣是有思維的,是有自己推理能力的,換句話說它一定要去有能力解決它沒有見過的事情或未知的場景,因為這個在端到端里可能有一定的泛化能力,但并不是足以說有思維。就像猴子一樣,它可能也會做出一些你覺得超越你想象的事情,但它不會總做出來,但人不是,人是可以成長的、可以迭代的,所以我們一定要按照人類的智能發(fā)展方式去做我們的人工智能,我們就很快從端到端切換到了VLA方案去做。
VLA(Vision-Language-Action,視覺語言動作模型)就是去年的趨勢思考,以及當下成為現(xiàn)實的技術(shù)架構(gòu)。
雖然VLA和VLM就差了一個字母,但內(nèi)涵差異非常大。
VLA的Vision指各種傳感器信息的輸入,也包括導航信息,能夠讓模型對空間有理解和感知。
VLA的Language指模型會把感知到的空間理解,像人一樣總結(jié)、翻譯、壓縮、編碼成一個語言表達出來。
VLA的Action是模型根據(jù)場景的編碼語言,生成行為策略,把車開起來。
直觀的差異就是,人可以用語言去控車,說話就可以讓車慢點快點左轉(zhuǎn)右轉(zhuǎn),這主要是Language部分的功勞,人的指令大模型收到的prompt,VLA模型內(nèi)部的指令也是prompt,等于是打通了人和車。
此外,視覺和行為之間,也沒有阻礙了,從視覺信息輸入到控車行為輸出的速度和效率都大大加快,VLM慢,端到端不理解VLM的問題被解決了。
更顯著的差別是思維鏈(ChainofThought,CoT)能力,VLA模型的推理頻率達到了10Hz,比VLM的推理速度快了3倍多,同時對環(huán)境的感知和理解更充分,可以更快更有理有據(jù)地進行思維推理,生成駕駛決策。
除了思維能力和溝通能力之外,VLA也具備一定的記憶能力,可以記住車主的偏好和習慣;以及相當強的自主學習能力。
▲理想i8是理想VLA技術(shù)的首發(fā)車型
理想輔助駕駛的《飛馳人生》
現(xiàn)實世界里,人類想要成為老司機,肯定先得去報個駕??紓€駕照,然后貼「實習標」蹣跚上路,在真實道路上開幾年時間。
此前輔助駕駛的訓練也是如此,不光需要真實世界里的行駛數(shù)據(jù)用作訓練,也需要在真實世界里進行大量的路試。
在一些小說里,有些天賦異稟的選手可以通過讀書,讀成武力境界超高的實戰(zhàn)高手,比如《少年歌行》里的「儒劍仙」謝宣,《雪中悍刀行》里的軒轅敬城。
但是在傳統(tǒng)武俠小說里,只會有《天龍八部》里王語嫣這樣精通武學典籍,自身卻是毫無實戰(zhàn)能力的戰(zhàn)五渣。
▲《飛馳人生》劇照
當然,也有介于中間態(tài)的情況:在賽車電影《飛馳人生》里,落魄賽車手張弛在腦海里不斷復現(xiàn)巴音布魯克地區(qū)的復雜賽道情況,每天在腦海里開20遍,5年模擬開了36000多遍,然后回到真實賽道的時候,成為了冠軍。
虛擬開車,不斷精進,超越自己過去的最好成績,這是「算法」。
不過張弛回歸賽道,再次成為冠軍車手之前就已經(jīng)在這條賽道多次證明過自己,積累了大量的實際駕駛經(jīng)驗。
實車實路,積累經(jīng)驗,直到了解這條賽道所有的路況,這是「數(shù)據(jù)」。
郎咸朋說,想要做好VLA模型,需要四個層面的能力:數(shù)據(jù),算法,算力和工程能力。
理想強調(diào)自己數(shù)據(jù)多,數(shù)據(jù)優(yōu)秀,數(shù)據(jù)庫好,以及數(shù)據(jù)標注和數(shù)據(jù)挖掘準已經(jīng)很久了,關(guān)于數(shù)據(jù),理想也有新技能:生成數(shù)據(jù)訓練。
通過世界模型進行場景重建,然后在重建的真實數(shù)據(jù)之上,舉一反三,生成相似場景,比如理想在世界模型里重建一個出高速ETC的場景,在這個場景下,不僅可以用原來的真實數(shù)據(jù)情況,比如白天晴朗地面干燥,也可以生成出白天大雪地面濕滑,夜晚小雨能見度不佳等等場景。
理想訓練VLA模型算法的更迭也跟生成數(shù)據(jù)息息相關(guān),郎咸朋介紹說:
2023年我們還沒做端到端,一年用實車的有效測試里程大概157萬公里,每公里花18塊錢。我們開始做端到端的時候,就有一部分在做仿真測試了,2024年全年的仿真測試仿了500萬公里左右,實車也測了100多萬公里,平均下來成本降到了5塊錢一公里不到,差不多也是花了3000萬左右。但是同樣花3000萬,我能測600萬公里了。今年半年時間(1月1日-6月30日),我們測了4000萬公里,實車只有2萬公里,就跑一些基本的場景。所有的測試,大家看到的超級對齊、現(xiàn)在的VLA,我們都是用仿真測的,5毛錢一公里,就是付個電費,付個服務器的費用。并且測試質(zhì)量還高,所有的case、所有的場景都能舉一反三,可以完全復測,分毫不差。我們的測試里程多了,測試質(zhì)量好了,研發(fā)效率就提升了。所以很多人質(zhì)疑我們不可能用半年做個VLA,測都測不過來,實際上我們測試非常多。
仿真測試的優(yōu)點除了成本低之外,還能完美復現(xiàn)場景,真實場景測試情況下,一個場景很難被100%還原,對于VLA模型來說,場景復現(xiàn)差之毫厘,駕駛表現(xiàn)可能就失之千里。
以此而言,理想訓練VLA模型的形式,與電影《飛馳人生》里主角在真實駕駛經(jīng)驗基礎(chǔ)上,不斷地虛擬訓練的模式,有一些類似。
當然,最后VLA模型的訓練,也需要背后巨大算力的支撐,理想現(xiàn)在的總算力為13EFLOPS,其中3EFLOPS給了推理,10EFLOPS給了訓練。換算成顯卡數(shù)量,是等效2萬張英偉達H20用作訓練,等效3萬張英偉達L20用于推理。
關(guān)鍵Q&A
Q:智能輔助駕駛存在一個「不可能三角」,也就是效率、舒適和安全三個目標之間是互相制約的,目前階段可能難以同時實現(xiàn)。理想汽車的VLA目前在當前階段最先優(yōu)化的指標是哪一個?剛剛提及到MPI,是否可以理解為目前理想汽車最終的指標是提升安全性以有效減少接管?
郎咸朋:MPI是我們衡量的指標之一,還有一個指標是MPA,也就是指發(fā)生事故的里程,理想車主的人駕數(shù)據(jù)是60萬公里左右出一次事故,而在使用輔助駕駛功能的情況下是350到400萬公里發(fā)生一次事故。這個里程數(shù)據(jù)我們還會持續(xù)提升,我們的目標是將MPA能提升到人類駕駛的10倍,也就是比人駕安全10倍,做到600萬公里才出一次事故,但這必須等到VLA模型提升之后才能做到。
針對MPI,我們也做過分析,可能一些安全風險問題會導致接管,但有時候舒適度不好也會導致接管,比如急剎、重剎等,因為并不一定每次都會遇到安全風險,但是如果駕駛舒適度不好,用戶依然不想用輔助駕駛功能。因為MPA可以衡量安全性,在MPI方面,除了安全性之外,我們重點提升了行車舒適度,如果體驗了理想i8的輔助駕駛功能,會體驗到舒適度比之前的版本有很大提升。
效率是排在安全和舒適之后的,比如走錯路,雖然效率有所損失,但我們不會通過一些危險的動作立刻糾正,還是要在安全和舒適的基礎(chǔ)上去追求效率。
Q:VLA模型的難點在哪里?對企業(yè)的要求是什么?如果一個企業(yè)想要落地VLA模型會面臨哪些挑戰(zhàn)?
郎咸朋:曾經(jīng)也有很多人問過如果車企想做VLA模型是不是可以跳過前面的規(guī)則算法,跳過端到端階段,我認為是不行的。
雖然VLA的數(shù)據(jù)、算法等可能跟之前不太一樣,但是這些仍然是要建立在之前的基礎(chǔ)上的,如果沒有完整的通過實車采集的數(shù)據(jù)閉環(huán),是沒有數(shù)據(jù)能夠去訓練世界模型的。理想汽車之所以能夠落地VLA模型,是因為我們有12億數(shù)據(jù),只有在充分了解這些數(shù)據(jù)的基礎(chǔ)上,才能夠更好的生成數(shù)據(jù)。如果沒有這些數(shù)據(jù)基礎(chǔ),首先不能訓練世界模型,其次也不清楚要生成什么樣的數(shù)據(jù)。
同時,基礎(chǔ)訓練算力和推理算力的支撐需要大量資金和技術(shù)能力,如果沒有之前的積累是不能完成的。
Q:今年理想實車測試是2萬公里,請問大幅減少實車測試的依據(jù)是什么?
郎咸朋:我們認為實車測試有很多問題,成本是其中一方面,最主要的是我們在測試驗證一些場景時不可能完全復現(xiàn)發(fā)生問題時的場景。同時,實車測試的效率太低了,在實車測試過程中要開過去之后再復測回來,我們現(xiàn)在的仿真效果完全可以媲美實車測試,現(xiàn)在的超級版本和理想i8的VLA版本中90%以上的測試都是仿真測試。
從去年端到端版本我們就已經(jīng)開始進行仿真測試的驗證,目前我們認為它的可靠性和有效性都很高,所以我們以此替代了實車測試。但仍有一些測試是無法替代的,比如硬件耐久測試,但和性能相關(guān)的測試我們基本上會使用仿真測試替代,效果也非常好。
工業(yè)時代來臨后,刀耕火種的流程被機械化替代;信息時代后,網(wǎng)絡替代了大量工作。在自動駕駛時代也是一樣,端到端時代來臨后,我們進入了使用AI技術(shù)做自動駕駛的方式,從雇傭大量工程師、算法測試人員,到數(shù)據(jù)驅(qū)動,通過數(shù)據(jù)流程、數(shù)據(jù)平臺和算法迭代提升自動駕駛能力。而進入了VLA大模型時代,測試效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影響快速迭代的因素迭代掉,如果這其中仍有大量的實車和人工介入,速度是會降低的。并不是我們一定要替代實車測試,而是這項技術(shù),這個方案本身就要求要使用仿真測試,如果不這樣做,并不是在做強化學習,并不是在做VLA模型。
Q:VLA其實沒有顛覆端到端+VLM,所以是否可以理解成VLA是偏向于工程能力的創(chuàng)新?
詹錕(理想汽車自動駕駛高級算法專家):VLA不只是工程方面的創(chuàng)新,大家如果關(guān)注具身智能,會發(fā)現(xiàn)這波浪潮伴隨著大模型對物理世界的應用,這本質(zhì)就是提出了一個VLA算法,我們的VLA模型就是想把具身智能的思想和路徑引用在自動駕駛領(lǐng)域。我們是最早提出,也是最早開始實踐的。VLA也是一種端到端,因為端到端的本質(zhì)是場景輸入,軌跡輸出,VLA也是如此,但算法的創(chuàng)新是多了思考。端到端可以理解為VA,沒有Language,Language對應的是思考和理解,我們在VLA中加入了這一部分,把機器人的范式統(tǒng)一,讓自動駕駛也能成為機器人的一類,這是算法創(chuàng)新,不只是工程創(chuàng)新。
對于自動駕駛而言,很大的挑戰(zhàn)是必須要有工程創(chuàng)新。因為VLA是一個大模型,大模型部署在邊緣端算力上是非常具有挑戰(zhàn)的。很多團隊并不是認為VLA不好,而是因為VLA部署有困難,把它真正落地是非常具有挑戰(zhàn)性的事情,尤其是在邊緣端芯片算力不夠的情況下是不可能完成的,所以我們是在大算力芯片上才能部署。所以這不僅僅是工程創(chuàng)新,但的確需要工程部署大范圍優(yōu)化才能實現(xiàn)。
Q:VLA大模型在車端部署的時候是否會有比如模型裁剪或蒸餾版本?如何在推理效率和模型之間做好平衡?
詹錕:在部署時的效率和蒸餾上我們做了非常多平衡。我們的基座模型是自研的8x0.4B的MoE模型(混合專家模型),這是業(yè)界沒有的,我們在深入分析英偉達芯片后,發(fā)現(xiàn)這個架構(gòu)非常適合它,推理速度快的同時模型容量大,能夠同時容納不同場景、不同能力的大模型,這是我們在架構(gòu)上的選擇。
另外,我們是大模型蒸餾出來的,我們最早訓練了一個32B的云端大模型,它容納了海量的知識和駕駛能力,我們把它做出的思考和推理流程蒸餾到3.2B的MoE模型上,配合Vision和Action,使用了Diffusion技術(shù)(擴散模型,可以生成圖像、視頻、音頻,動作軌跡等數(shù)據(jù),具體到理想的VLA場景,是利用Diffusion生成行車軌跡)。
我們用這樣的方法做了非常多的優(yōu)化。從細節(jié)上來看,我們也針對Diffusion做了工程優(yōu)化,并不是直接使用標準Diffusion,而是進行了推理的壓縮,可以理解為一種蒸餾。以前Diffusion可能要推理10步驟,我們使用了flowmatching流匹配只需要推理2步就可以了,這方面的壓縮也是導致我們真正能夠部署VLA的本質(zhì)原因。
Q:VLA是一個足夠好的解法了嗎?它抵達所謂的「GPT時刻」還需要花多長時間?
詹錕:多模態(tài)模型之前說沒有達到GPT時刻,可能指的是VLA這種物理AI,而不是VLM,其實現(xiàn)在VLM已經(jīng)完全滿足一個非常創(chuàng)新的「GPT時刻」標準,如果針對物理AI,現(xiàn)在的VLA,特別是在機器人領(lǐng)域、具身智能領(lǐng)域可能并沒有達到「GPT時刻」的標準,因為它沒有那么好的泛化能力。
但在自動駕駛領(lǐng)域,其實VLA解決的是一個相對統(tǒng)一的駕駛范式,是有機會用這個方式做到一個「GPT時刻」的,我們也非常承認現(xiàn)在的VLA是第一版本,也是業(yè)界第一個往量產(chǎn)上要推的VLA版本,肯定會存在一些缺陷。
這個重大嘗試是想說我們想用VLA來探索一個新的路徑,它里面有很多嘗試的地方,有很多需要去落地的探索的點,不是說不能做到「GPT時刻」就一定不能去做量產(chǎn)落地,它有很多細節(jié),包括我們的評測、仿真去驗證它能不能做到量產(chǎn)落地,能不能給用戶「更好、更舒適、更安全」的體驗,做到以上三點就可以給用戶更好的交付。
「GPT時刻」更多指的是具有很強的通用性和泛化性,在這個過程可能隨著我們自動駕駛往空間機器人或往其它具身領(lǐng)域去拓展的時候會產(chǎn)生出更強的泛化能力或者更綜合的統(tǒng)籌能力,我們也會在落地以后隨著「用戶數(shù)據(jù)迭代、場景豐富、思維邏輯性越來越多、語音交互越來越多」逐漸往ChatGPT時刻遷移。
像郎博(郎咸朋博士)說的,到明年我們?nèi)绻搅?000MPI,可能會給用戶這種感覺:真的到了一個VLA的「GPT時刻」。
《吸血鬼男神:輕輕一咬很心疼》:高中少女和吸血鬼男神的校園浪漫...
漫畫:吸血鬼男神,調(diào)查當年陷害父親的人!
漫畫:吸血鬼男神,明世隱救美!