用純電車型殺入家用市場,理想是否擁有銷量新籌碼?
7月29日,理想旗下首款純電SUV車型i8上市,售價32.18萬至36.98萬元。從理想i8可以看到,空間魔法和舒適配置依然是理想汽車的產(chǎn)品亮點之一。
作為一款中大型純電SUV,理想i8采用了三排六座布局,無論是二排中間過道還是三排腿部空間,理想都做到了同級別優(yōu)秀水平。車內(nèi)舒適的背后,理想犧牲了后備箱空間,在車內(nèi)六座乘客滿員的情況下,后備箱似乎未能容納六人份行李。
相較其他純電品牌,理想i8在配置上也采用了不同思路。理想i8共推出三種配置,5C超充電池與雙腔空氣懸架全系標(biāo)配。對于追求舒適性、又存在里程焦慮的消費群體而言,這是不錯的吸引力。
不過,空間與配置并不是i8的最大看點,理想似乎把重點押注在VLA大模型加持的輔助駕駛系統(tǒng)上。
VLA大模型會是理想的新增長空間嗎?
AI大模型在理想i8發(fā)布會上占據(jù)了很大篇幅,這家銷量領(lǐng)先的新勢力汽車品牌轉(zhuǎn)型AI公司意圖明顯。這其中,輔助駕駛的VLA大模型,是理想給未來押注的重要籌碼。
VLA是理想汽車提出的輔助駕駛新技術(shù)路線,相較目前行業(yè)主流的端到端路線,VLA的特點是讓汽車輔助駕駛實現(xiàn)自我升級,借助AI大模型擴(kuò)大數(shù)據(jù)數(shù)量與多樣性,讓輔助駕駛系統(tǒng)學(xué)習(xí)更多障礙物樣本與交通規(guī)則等。
理想認(rèn)為,VLA能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統(tǒng),具備語言、CoT(思維鏈)推理能力,既能看,也能理解并真正執(zhí)行動作,符合人類的運(yùn)作方式。
從技術(shù)原理看,VLA的確有希望解決端到端路線的弊端:由于企業(yè)能收集的數(shù)據(jù)有限,端到端路線面對極限場景常常缺乏處理能力。
但不同技術(shù)路線有不同的挑戰(zhàn),VLA是輔助駕駛技術(shù)路線的無人區(qū),理想并沒有范本可以參考。無論是自研模型,還是數(shù)據(jù)訓(xùn)練,理想都需要自行摸索。所以理想如何研發(fā)VLA,VLA大模型的實際效果如何,汽車行業(yè)都在密切關(guān)注。
在理想i8發(fā)布會前一周,理想在北京組織了一場媒體溝通會,自動駕駛研發(fā)高級副總裁郎咸朋及其核心研發(fā)團(tuán)隊成員與36氪等媒體展開交流,關(guān)于VLA大模型的路徑與效果,理想汽車給出了全面解答。
以下是36氪等媒體和理想的對話,略經(jīng)改編:
問:VLA司機(jī)具備推理能力,并且表現(xiàn)更像人了,但是需要幾秒鐘的推理時間,請問在突發(fā)場景下,VLA司機(jī)是怎么進(jìn)行快思考的?
郎咸朋:您認(rèn)為思考過程很慢實際上是顯示的原因,本身推理速度是很快的,只是為了讓大家能夠看地更清楚我們摘取了一些重要的思考過程顯示出來。實際上現(xiàn)在VLA的推理幀率在10Hz左右,相比之前的VLM提升了三倍多,之前端到端的VLM部分是3Hz左右。
問:您剛才提到現(xiàn)在用MindGPT作為基座模型進(jìn)行訓(xùn)練,這比之前的模型好用嗎?
詹錕:我們自研的基座模型對部署VLA有很大作用,我們VLA是4B模型,比以前更大了,但推理速度更快了。核心原因是我們自研的基座架構(gòu),并不是業(yè)界任何一個開源模型都能達(dá)到這個效率。
之前在AITalk上提到過我們是MoE的0.4×8的架構(gòu),目前沒有任何一個架構(gòu)是這樣的,這是我們與基座團(tuán)隊共同研發(fā),專門對嵌入式芯片做了定制的MoE混合專家架構(gòu),在這個架構(gòu)上我們才能達(dá)到這樣的效果。
VLA的推理幀率在10Hz左右,每一幀都會經(jīng)過語言模型,這其中會有比較快的思考,也有會有比較長的思考,我們做了很多的優(yōu)化,把思考過程盡可能地能夠在車端推理出來。
問:您是如何判斷自動駕駛落地的時間表?如何進(jìn)行商業(yè)變現(xiàn)?
郎咸朋:從技術(shù)層面看,我們認(rèn)為VLA模型是可以走向更高級別的自動駕駛,但它現(xiàn)在處于起步階段,在這個技術(shù)周期里,起步階段VLA模型約等于端到端的上限,它還有很長一段路要走。但我認(rèn)為這個過程不會特別慢,因為端到端從10MPI到現(xiàn)在100MPI只用了一年左右的時間,我相信VLA的迭代速度也會非常快,可能我們明年坐在這兒的時候它已經(jīng)迭代到1000MPI了。
去年我和大家溝通過,今年端到端會迭代是被、當(dāng)時很多人也認(rèn)為不太可能,但我們的確做到了。所以VLA模型的迭代速度也會非常快,但前提是要有完備的基礎(chǔ)能力,如算法、算力和數(shù)據(jù)等,并且要有工程能力的支撐才能夠?qū)崿F(xiàn)。尤其VLA的訓(xùn)練和端到端是不一樣的,它需要更多的和成熟和仿真環(huán)境來進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練,和之前只是單純依靠實車的數(shù)據(jù)模仿學(xué)習(xí)訓(xùn)練是完全不同的。
商業(yè)變現(xiàn)的影響因素非常多,最核心的是國家的法律政策。理想汽車也在積極參與國家相關(guān)政策法規(guī)的討論小組,從技術(shù)上來看L4級別的自動駕駛落地是非常快的,但從商業(yè)角度上看,還有很多問題需要考慮,比如保險,事故之后的賠償?shù)取?/p>
問:是否可以用更通俗的方式介紹一下VLA模型的難度在哪里?對企業(yè)的要求是什么?如果一個企業(yè)想要落地VLA模型會面臨哪些挑戰(zhàn)?
郎咸朋:曾經(jīng)也有很多人問過如果車企想做VLA模型是不是可以跳過前面的規(guī)則算法,跳過端到端階段,我認(rèn)為是不行的。雖然VLA的數(shù)據(jù)、算法等可能跟之前不太一樣,但是這些仍然是要建立在之前的基礎(chǔ)上的,如果沒有完整的通過實車采集的數(shù)據(jù)閉環(huán),是沒有數(shù)據(jù)能夠去訓(xùn)練世界模型的。
理想汽車之所以能夠落地VLA模型,是因為我們有12億數(shù)據(jù),只有在充分了解這些數(shù)據(jù)的基礎(chǔ)上,才能夠更好的生成數(shù)據(jù)。如果沒有這些數(shù)據(jù)基礎(chǔ),首先不能訓(xùn)練世界模型,其次也不清楚要生成什么樣的數(shù)據(jù)。同時,基礎(chǔ)訓(xùn)練算力和推理算力的支撐需要大量資金和技術(shù)能力,如果沒有之前的積累是不能完成的。
問:目前有一些友商的車載算力已經(jīng)到2000TOPS了,這其中有一部分算力是提供給座艙的,請問未來理想汽車在車載算力上的規(guī)劃是怎樣的?有沒有標(biāo)準(zhǔn)?
郎咸朋:實際上算力和量化精度是相關(guān)的,也就是如何使用芯片。如果使用精度比較高的表達(dá)方式,等效算力或有效算力會低一些,但如果使用更好的量化精度,算力就會高。因為我們不清楚其它企業(yè)的量化精度,所以很難評判。我們在車載算力上有更加長期的規(guī)劃,但現(xiàn)在不方便透露。
問:請問未來理想汽車把自動駕駛能力推升的過程中對于算力儲備和卡的規(guī)劃是怎樣的?是否能夠介紹一下從規(guī)則算法時代到模仿學(xué)習(xí)階段,再到強(qiáng)化學(xué)習(xí)階段,在這個三個階段期間,理想汽車的算力增長節(jié)奏是怎樣的?
郎咸朋:算力增長過程與技術(shù)方案相關(guān)。在規(guī)則算法時代,訓(xùn)練的卡只是用于訓(xùn)練BEV模型和感知模型,相對數(shù)量較少,但在端到端時代,模型訓(xùn)練需要大量算力及訓(xùn)練卡,我們的訓(xùn)練卡從不到1EFLOPS增長到去年的10EFLOPS,增長了10倍左右。我們認(rèn)為訓(xùn)練算力是一方面,同時要增加推理算力。
問:智能駕駛存在一個“不可能三角”,也就是效率、舒適和安全三個目標(biāo)之間是互相制約的,目前階段可能難以同時實現(xiàn)。請問理想汽車的VLA目前在當(dāng)前階段最先優(yōu)化的指標(biāo)是哪一個?剛剛提及到MPI,是否可以理解為目前理想汽車最終的指標(biāo)是提升安全性以有效減少接管?
郎咸朋:MPI是我們衡量的指標(biāo)之一,還有一個指標(biāo)是MPA,也就是指發(fā)生事故的里程,現(xiàn)在是300萬公里左右。理想車主的人駕數(shù)據(jù)是60萬公里左右出一次事故,而在使用輔助駕駛功能的情況下是350到400萬公里發(fā)生一次事故。這個里程數(shù)據(jù)我們還會持續(xù)提升,我們的目標(biāo)是將MPA能提升到人類駕駛的10倍,也就是比人駕安全10倍,我們希望在輔助駕駛功能下能夠做到600萬公里才出一次事故,但這必須等到VLA模型提升之后才能做到。
針對MPI,我們也做過分析,可能一些安全風(fēng)險問題會導(dǎo)致接管,但有時候舒適度不好也會導(dǎo)致接管,比如急剎、重剎等,因為并不一定每次都會遇到安全風(fēng)險,但是如果駕駛舒適度不好,用戶依然不想用輔助駕駛功能。因為MPA可以衡量安全性,在MPI方面,除了安全性之外,我們重點提升了行車舒適度,如果體驗了理想i8的輔助駕駛功能,會體驗到舒適度比之前的版本有很大提升。
效率是排在安全和舒適之后的,比如走錯路,雖然效率有所損失,但我們不會通過一些危險的動作立刻糾正,還是要在安全和舒適的基礎(chǔ)上去追求效率。
問:剛提到今年實車測試是2萬公里,請問大幅減少實車測試的依據(jù)是什么?
郎咸朋:我們認(rèn)為實車測試有很多問題,成本是其中一方面,最主要的是我們在測試驗證一些場景時不可能完全復(fù)現(xiàn)發(fā)生問題時的場景。同時,實車測試的效率太低了,在實車測試過程中要開過去之后再復(fù)測回來,我們現(xiàn)在的仿真效果完全可以媲美實車測試,現(xiàn)在的超級版本和理想i8的VLA版本中90%以上的測試都是仿真測試。
從去年端到端版本我們就已經(jīng)開始進(jìn)行仿真測試的驗證,目前我們認(rèn)為它的可靠性和有效性都很高,所以我們以此替代了實車測試。但仍有一些測試是無法替代的,比如硬件耐久測試,但和性能相關(guān)的測試我們基本上會使用仿真測試替代,效果也非常好。
問:通常的做法是保持實測測試規(guī)模,大幅增加仿真測試數(shù)量,從理想汽車的實際反饋看,仿真測試的效果是比實車測試好很多對嗎?
郎咸朋:是的。仿真測試效果好,成本低,為什么不用仿真測試呢?我們保留實車測試是為了一些必要內(nèi)容,任何技術(shù)的提升一定伴隨著研發(fā)流程的變革,工業(yè)時代來臨后,刀耕火種的流程被機(jī)械化替代;信息時代后,網(wǎng)絡(luò)替代了大量工作。
在自動駕駛時代也是一樣,端到端時代來臨后,我們進(jìn)入了使用AI技術(shù)做自動駕駛的方式,從雇傭大量工程師、算法測試人員,到數(shù)據(jù)驅(qū)動,通過數(shù)據(jù)流程、數(shù)據(jù)平臺和算法迭代提升自動駕駛能力。而進(jìn)入了VLA大模型時代,測試效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影響快速迭代的因素迭代掉,如果這其中仍有大量的實車和人工介入,速度是會降低的。
并不是我們一定要替代實車測試,而是這項技術(shù),這個方案本身就要求要使用仿真測試,如果不這樣做,并不是在做強(qiáng)化學(xué)習(xí),并不是在做VLA模型。
問:剛剛分享了端到端的瓶頸和一些無法解決的問題,VLA是當(dāng)時唯一考慮的路線嗎?還是有其它的選擇?
郎咸朋:我們并沒有很糾結(jié)方案。因為我們一直保持著對前沿算法的預(yù)言和探索,做端到端的時候我們也在考慮下一代人工智能技術(shù),當(dāng)時業(yè)內(nèi)最有前途的就是VLA技術(shù)方案,但并不是只是用于自動駕駛,它是具身智能領(lǐng)域的技術(shù)。
我們認(rèn)為它也是未來機(jī)器人領(lǐng)域的通用技術(shù)框架,其實自動駕駛也是一種機(jī)器人,是自主行駛的機(jī)器人,如果未來我們希望做其它機(jī)器人,也都可以基于類似的VLA框架,所以我們經(jīng)過了長時間的調(diào)研和探索,制定了VLA的技術(shù)方向。
問:剛郎博提到如果量化精度高的話,可以在Thor芯片上實現(xiàn)翻倍的算力,為什么理想汽車能夠最大限度壓榨芯片的能力?基于這個能力,理想汽車是否還會自研智駕芯片?
詹錕:我們從去年開始用Orin芯片做大模型部署,當(dāng)時英偉達(dá)覺得這是不可能的,但我們認(rèn)為這是必須要要做的,和英偉達(dá)做了非常詳細(xì)的剖析和拆解,我們的工程團(tuán)隊、部署團(tuán)隊做了非常多的工作,包括我們魔改CUDA的底層,重寫PTX底層指令,才能實現(xiàn)現(xiàn)在的效果。
理想汽車自動駕駛團(tuán)隊的工程部署能力是一以貫之的,從早期在地平線J3部署高速NOA,到在Orin芯片上部署大模型,再到現(xiàn)在在Thor芯片上部署VLA高頻快速的大模型。這些都是有工程積累和工程實踐的,很多技巧和分析方法,以及基礎(chǔ)設(shè)施的工具鏈都繼承下來了。
這其中很關(guān)鍵的一點是我們打磨細(xì)節(jié)的能力,芯片能否被壓榨最主要的事做底層分析,解決瓶頸熱點。剛剛郎博分享了很多我們解決的問題,大家會發(fā)現(xiàn)VLA從最初推理一幀需要500-600毫秒到最后實現(xiàn)10Hz,提升了近10倍的效率,這其中有非常多的細(xì)節(jié)都是我們在遇到問題后拆解當(dāng)前芯片適配的算法,調(diào)整算子,讓算子和芯片目前的能力更匹配。大家會常用的推理模型會用FP16,我們把它降到FP8,性能做了非常的提升,同時FP4也是英偉達(dá)在最新的Blackwell架構(gòu)中非常推崇的,我們會進(jìn)一步把芯片算力壓榨出來。
郎咸朋:自研芯片的核心原因是作為一個專用芯片能夠針對自己的算法進(jìn)行特定地優(yōu)化處理,性價比和效率都會很高?,F(xiàn)在我們依然使用Thor芯片是因為英偉達(dá)對一些新的算子支持是比較好的,算力也比較充足,在整體VLA迭代過程中依然有變化的可能性,所以我們依然在用Thor芯片。如果未來算法鎖定,為了更好的效率和成本,大家都會考慮自研芯片的。
問:您剛才講到從規(guī)則到端到端+VLM是比較大的技術(shù)路線革新,但VLA其實沒有顛覆端到端+VLM,所以是否可以理解成VLA是偏向于工程能力的創(chuàng)新?
詹錕:VLA不只是工程方面的創(chuàng)新,大家如果關(guān)注具身智能,會發(fā)現(xiàn)這波浪潮伴隨著大模型對物理世界的應(yīng)用,這本質(zhì)就是提出了一個VLA算法,我們的VLA模型就是想把具身智能的思想和路徑引用在自動駕駛領(lǐng)域。我們是最早提出,也是最早開始實踐的。
VLA也是一種端到端,因為端到端的本質(zhì)是場景輸入,軌跡輸出,VLA也是如此,但算法的創(chuàng)新是多了思考。端到端可以理解為VA,沒有Language,Language對應(yīng)的是思考和理解,我們在VLA中加入了這一部分,把機(jī)器人的范式統(tǒng)一,讓自動駕駛也能成為機(jī)器人的一類,這是算法創(chuàng)新,不只是工程創(chuàng)新。
但對于自動駕駛而言,很大的挑戰(zhàn)是必須要有工程創(chuàng)新。因為VLA是一個大模型,大模型部署在邊緣端算力上是非常具有挑戰(zhàn)的。很多團(tuán)隊并不是認(rèn)為VLA不好,而是因為VLA部署有困難,把它真正落地是非常具有挑戰(zhàn)性的事情,尤其是在邊緣端芯片算力不夠的情況下是不可能完成的,所以我們是在大算力芯片上才能部署。所以這不僅僅是工程創(chuàng)新,但的確需要工程部署大范圍優(yōu)化才能實現(xiàn)。
問:VLA大模型在車端部署的時候是否會有一些輕量化的版本,比如模型裁剪或蒸餾版本?如何在推理效率和模型之間做好平衡?
詹錕:在部署時的效率和蒸餾上我們做了非常多平衡。我們的基座模型是自研的8x0.4B的MOE模型,這是業(yè)界沒有的,我們在深入分析英偉達(dá)芯片后,發(fā)現(xiàn)這個架構(gòu)非常適合它,推理速度快的同時模型容量大,能夠同時容納不同場景、不同能力的大模型,這是我們在架構(gòu)上的選擇。
另外,我們是大模型蒸餾出來的,我們最早訓(xùn)練了一個32B的云端大模型,它容納了海量的知識和駕駛能力,我們把它做出的思考和推理流程蒸餾到3.2B的MoE模型上,配合Vision和Action,使用了Diffusion。我們用這樣的方法做了非常多的優(yōu)化。
從細(xì)節(jié)上來看,我們也針對Diffusion做了工程優(yōu)化,并不是直接使用標(biāo)準(zhǔn)Diffusion,而是進(jìn)行了推理的壓縮,可以理解為一種蒸餾。以前Diffusion可能要推理10步驟,我們使用了flowmatching流匹配只需要推理2步就可以了,這方面的壓縮也是導(dǎo)致我們真正能夠部署VLA的本質(zhì)原因。
問:我們在測試時看到了,可以對VLA說前進(jìn)10米。您也提到了這個概念,大模型在訓(xùn)練數(shù)據(jù)中是沒有學(xué)習(xí)過這么具體的概念的,理想汽車是如何發(fā)現(xiàn)\了解背后機(jī)制的?另外,人類是否能信任大模型做出的判斷?
詹錕:首先,我們不會單純地讓模型學(xué)習(xí)向前走10m、12m這樣生硬的數(shù)據(jù),但是在海量的通識數(shù)據(jù)中,有很多對物理空間的理解。比如前方白車距離多少米,前方路沿和我有多少距離,而且現(xiàn)在大模型也已經(jīng)加入很多物理空間的知識,包括現(xiàn)在的ChatGPT、千問都具備這樣的能力,把這些能力在大模型里學(xué)習(xí)之后,我們只需要在action中把它體現(xiàn)出來。
剛剛分享了五步訓(xùn)練法,第一步就是加入通識能力和物理世界的知識,在第二步時相對進(jìn)行一些微調(diào),將這樣的能力和action結(jié)合,就能夠?qū)崿F(xiàn),這是端到端的學(xué)習(xí)思路就能做到的。其實有一些背后的機(jī)制和現(xiàn)在的大模型是非常一致。當(dāng)我們把海量數(shù)據(jù)喂給它以后,這些數(shù)據(jù)具備組合泛化能力,并不是教什么學(xué)什么,當(dāng)量級達(dá)到一定規(guī)模時,會涌現(xiàn)出一些能力,包括行為,并不是說必須11m、12m、13m,分別教才行。它懂了數(shù)字,懂了米數(shù),當(dāng)你在給它一個新的東西,它就存在一種組合泛化的機(jī)制。
這是大模型理論研究非常多的,但目前這樣的機(jī)制是可以在各個領(lǐng)域進(jìn)行泛化應(yīng)用的。所以我們很多能力和知識就是各個學(xué)科交叉的融合,我們也非常關(guān)注現(xiàn)在大模型的進(jìn)展,隨時可以向自動駕駛上遷移。
問:大語言模型可能缺乏長期記憶能力和長期規(guī)劃,在剛剛的VLA測試中會看到一些在某條路上開多少速度的能力,在這方面理想汽車做了怎樣的改進(jìn)?
詹錕:大家可以發(fā)現(xiàn),近一年,大模型和Agent的發(fā)展是非??斓?。大模型用到了很多tools能力,包括RAG能力,剛剛看到的記憶就是RAG能力。當(dāng)我們發(fā)出指令之后可以外掛在RAG中,當(dāng)下次到這里的時候可以很容易調(diào)度它,它能夠記得之前到這個地方的時候發(fā)出過這樣的指令,就能夠加到prompt中。我們會進(jìn)行prompt的微調(diào),本質(zhì)是把這些知識放入VLA輸入中,大模型會具備這樣的能力。
當(dāng)我們把大模型系統(tǒng)看做一個Agent,本質(zhì)是它是一個以大模型為中心構(gòu)建的系統(tǒng),這其中有tools,RAG外掛系統(tǒng)來增強(qiáng)它的記憶和規(guī)劃能力,讓他形成一個真正的完整的智能體,我們做了很多工作才實現(xiàn)了這樣的功能。
問:郎博提到物理世界中實車測試是無法100%復(fù)現(xiàn)場景的,在仿真測試過程中是怎樣做到100%復(fù)原的?為什么理想汽車可以做到?
湛逸飛:我們在2024年還是進(jìn)行了150多萬公里的實車測試。實際上我們在2024年就已經(jīng)具備了世界模型仿真能力,我們在用這150多萬公里的實車測試來驗證仿真環(huán)境的可靠性。事實上,最初世界模型仿真復(fù)現(xiàn)率或真實性是存在問題的,但我們通過與實車測試數(shù)據(jù)對比,在過去一年里針對仿真測試中的漏洞或缺陷進(jìn)行了大量工程和算法優(yōu)化,讓仿真一致性達(dá)到了非常高的程度。
雖然并沒有達(dá)到100%,但準(zhǔn)確率也可以在99.9%以上。舉一個簡單的例子,在仿真環(huán)境中最開始紅綠燈的變化在200米外是看不清楚的,于是我們針對紅綠燈的視野模型仿真進(jìn)行了大量的優(yōu)化,包括對30°相機(jī)分辨率的提升。我們用過去一年的時間將仿真系統(tǒng)的可靠性提升到了很好的程度,才會放心地去使用這套系統(tǒng)。
問:近期理想汽車發(fā)布了OTA7.5版本,這次的重磅升級是超級對齊監(jiān)督模型的發(fā)布,這對VLA實現(xiàn)人類老司機(jī)體驗的作用和意義是什么?
郎咸朋:OTA7.5版本的超級對齊做了兩件事,第一,對數(shù)據(jù)配比進(jìn)行調(diào)整,使得模型訓(xùn)練的數(shù)據(jù)質(zhì)量和數(shù)據(jù)覆蓋提升;第二,增加了后處理能力,比如法律法規(guī)類的規(guī)則,強(qiáng)制讓模型輸出符合法規(guī)或合規(guī)的規(guī)定,讓它更加符合人類駕駛習(xí)慣要求。
VLA很重要的意義是為我們提供了很多評測場景,剛剛提到我們在過去一年的迭代過程中積累了大量用于仿真評測的場景,現(xiàn)在的VLA模型仿真得分已經(jīng)超越OTA7.5版本的得分,我們把OTA7.5版本超級對齊的一些場景用VLA的模型再去跑一遍,看它在這個場景里的通過率和得分率。
超級對齊里也用了很多仿真測試,在超級對齊之前我們還沒有特別大量地使用仿真環(huán)境進(jìn)行測試,在超級對齊中我們可以達(dá)到單天峰值30萬公里的仿真里程。
所以,它對VLA的意義就是它為VLA積攢了很多評測場景和數(shù)據(jù),假設(shè)其他團(tuán)隊在做VLA模型,單純評測就是一項挑戰(zhàn),需要積累很多的場景。我們在VLA模型中能夠快速迭代的原因是VLA評測就像之前的實車評測一樣,在實車評測時大家都有自己的方式和場景,我們的VLA仿真評測已經(jīng)在超級對齊里做好了基礎(chǔ),現(xiàn)在已經(jīng)有超過40多萬個場景評測了,我們還會持續(xù)補(bǔ)充,超級對齊對VLA的意義最重要的就是在評測方面。
問:郎博提到VLA要成為“更好的家庭司機(jī)”,那在駕駛風(fēng)格或“司機(jī)性格”的個性化定制方面,未來是否會有更多可能性?
郎咸朋:我們也在考慮給不同的車、不同的使用者跟你相類似的駕駛風(fēng)格的體驗,不會所有車都是一套駕駛風(fēng)格,因為強(qiáng)化學(xué)習(xí)是有這個能力來支撐它這個車越開越像你的風(fēng)格或體驗,之前端到端可能還不具備這樣的能力。不是設(shè)定的你自己的路線、你自己駕駛的風(fēng)格會越開越像你的,我們也在考慮端上的強(qiáng)化訓(xùn)練。
問:在Thor的FP8格式下實現(xiàn)1000TOPS算力,而行業(yè)普遍采用FP16處理算子。如何做到將精度從FP16降至FP8時保持模型精度(不掉點)?向FP4演進(jìn)時需突破哪些關(guān)鍵技術(shù)?Blackwell已支持FP4原生硬件,但I(xiàn)NT4如何處理?Orin-X等平臺缺乏FP4原生支持,如何平衡硬件兼容性與計算效率?FP4實現(xiàn)2000TOPS等效算力后,能否支撐類人感知的幀率(如3FPS)?關(guān)鍵瓶頸會出現(xiàn)在哪里?
詹錕:我先解釋一下,我們把數(shù)值精度,首先從FP16或者FP32、FP8和INT8這樣去縮減的。
首先這是業(yè)界比較共識的一個問題,在大模型領(lǐng)域,大家對數(shù)值精度的要求會降低,這也是為什么到LLM領(lǐng)域,大家看到DeepSeek開始推它的FP8,為什么以前不行?也是因為模型參數(shù)規(guī)模過大,對它的容錯變低了,它通過更多的層,更多的數(shù)據(jù)容量,把之前的異常值降的越來越少,這是大模型一個特性,這也是為什么到VLM、VLA領(lǐng)域以后,大家會逐漸往低精度,更精細(xì)的計算密集型的算子上去靠近,這是很大一個變化。如果我們還用原來的方法,那是不太行的,它會要很高的FP32、FP16這樣的數(shù)值精度,那到VLM才能做這樣的事情。
另一個,量化訓(xùn)練。傳統(tǒng)的訓(xùn)練一般都會拿FP32去做訓(xùn)練,所以拿出來的參數(shù)就是FP32的數(shù)值精度。那我們有一個訓(xùn)練過程叫QAT,就是在訓(xùn)練過程中,我把參數(shù)就把它變成INT8或FP8,這樣的過程中,我們在模型只能用數(shù)據(jù)精度去做模型訓(xùn)練迭代,這樣我們拿出來的模型就能適配模型的推理精度。
以往企業(yè)是很難做好的,是因為這個訓(xùn)練過程中會非常不穩(wěn)定,這里面會有大量的訓(xùn)練框架優(yōu)化,訓(xùn)練策略的優(yōu)化才能做??赡芪蚁饶肍P32把模型訓(xùn)的收斂了,我再拿一個QAT的方式,訓(xùn)練成FP8這樣的小數(shù)值精度。
另一個很重要的,我們還是做了大量的數(shù)據(jù)清洗。以往出現(xiàn)這種數(shù)據(jù)噪點還是因為有臟數(shù)據(jù),這也是為什么剛剛說我們還是在1000萬上面做,但是我們這里面做了大量的數(shù)據(jù)清洗、數(shù)據(jù)儲備工作,把不好的數(shù)據(jù)去掉,這樣才能讓訓(xùn)練變得穩(wěn)定、變得收斂,這也是目前像大語言模型大家常規(guī)的迭代方向,把數(shù)據(jù)精度做的越來越精細(xì),把數(shù)據(jù)清洗的越來越干凈,它訓(xùn)練也會越來越收斂。
第一個方向是會往FP8、INT8方面做。另一個,F(xiàn)P4,這也是像英偉達(dá)他們這些最先進(jìn)的芯片提出來的,我們能不能把算力再降1倍,原來是要8個字節(jié)才能算一個點,我們變成4個。這里面很重要一點,模型的數(shù)值參數(shù)范圍一定要夠小,我們訓(xùn)練要更加穩(wěn)定,每一次數(shù)據(jù)用量對待你的模型訓(xùn)練迭代都是有更高的要求,目前看我們是有機(jī)會做到這里的。
如果你想做FP4,所以你要在訓(xùn)練上花更多精力,做更多的數(shù)據(jù)迭代、數(shù)據(jù)清洗,才能往這方面做。目前我們也在做這樣的嘗試,很快就可以在把Thor的芯片壓榨出來。
回到Orin,由于硬件限制,確實沒辦法做FP8這樣的計算,但是它有INT8。所以我們在Orin上,現(xiàn)在也是用了INT4的量化,再加FP16和INT8的混合精度推理,逐漸把大模型在Orin上部署。再往后走,由于硬件的限制,我們不能在做更多的精度壓縮。但是我們會同樣把VLA這樣的模型體驗放在Orin和Thor上同平臺。
問:到2000TOPS之后,幀率能不能跑到30幀去?
詹錕:目前來看我們在絕大部分場景10Hz,特別是城市,10Hz是夠用的。如果我們算力能用FP4,那肯定是能double20Hz,是可以做到。但是需不需要跑到30,這個我們得看情況,可能有人說特斯拉跑到30,我們了解到它也并不是完整的30Hz,它也有一些其他的方法做這樣的東西。那我們還是把反應(yīng)速度和體檢做上來,并不是追求一個簡單的數(shù)字。
問:VLA我們更多在做大腦的事情,但看感知的問題可能也不一定完全解決了,包括懂車帝這次測試可能也顯示出有些問題。想問一下我們在做VLA過程中,在感知方面還做了哪些工作,以及再往后走還有什么可以做的更好?
郎咸朋:還是要繼續(xù)提升技術(shù)能力,我們現(xiàn)在這邊正好有一個專門的技術(shù)能力提升的專項,就是要提升感知,在VLA中,我們現(xiàn)在對感知有一個比較大的升級,能看得更遠(yuǎn)、更精細(xì),比較典型的兩個例子是我們動態(tài)物體從原來150擴(kuò)到了200米純視覺的范圍,OCC通用物體檢測從原來的80擴(kuò)到了125,這都是目前在VLA上做的更多技術(shù)能力提升,包括數(shù)據(jù)、包括推理性能的提升才能做到,目前我們確實會在基礎(chǔ)能力上做更多提升。
問:理想是國內(nèi)VLA模型最早落地的車企,肯定也是摸著石頭過河,在研發(fā)VLA過程中哪方面挑戰(zhàn)是最大的,或者花費時間最長?在摸著石頭過河肯定有很多流程或什么被驗證是錯的,就踩過哪些坑?從端到端切換到VLA的時候,可能不僅僅是技術(shù)路線的切換,可能整個組織架構(gòu)也需要調(diào)整,理想在研發(fā)VLA組織架構(gòu)進(jìn)行了怎樣的調(diào)整?
郎咸朋:去年端到端需要一個數(shù)據(jù)驅(qū)動流程,我們之前做得很好,到今年一定要做強(qiáng)化學(xué)習(xí)的流程,就必須要快速驗證我們世界模型的可靠性、有效性,也需要快速搭建我們高效仿真環(huán)境。我們今年很多推理卡也需要大量的去購買、去部署等等,我覺得研發(fā)挑戰(zhàn)最大的除了技術(shù)本身之外,是伴隨技術(shù)迭代的研發(fā)流程改革。
端到端去年是180個人,今年VLA稍微多一點,200多個人,其實并不是弄幾千人去做,我覺得不需要,我覺得做得最好的是特斯拉,永遠(yuǎn)都是那一兩百人,做的還都挺好的。
問:后續(xù)還有很多國內(nèi)友商也在跟進(jìn)VLA,理想在整個研發(fā)過程中,踩過最大的坑能給大家介紹一下嗎?
郎咸朋:我在之前很多會上或?qū)ν獾难葜v上也都提到過,你想做好人工智能必須做好你的算法、數(shù)據(jù)和算力。
我們第一個要突破的是數(shù)據(jù)問題,如果沒有數(shù)據(jù),其實你的算力、算法再好也訓(xùn)不出來,企業(yè)不可能空轉(zhuǎn),你必須有很好的數(shù)據(jù)。
我們一直認(rèn)知還是比較好的,小坑肯定有,比如算力儲備的多少,交付快點慢點等,小的工程細(xì)節(jié)、優(yōu)化,肯定各家都會遇到,我覺得遇到小坑其實沒有問題,但不要遇到大的判斷失誤,我覺得我們運(yùn)氣還是可以的。
詹錕:我補(bǔ)充一下,可能也不叫坑,是個經(jīng)驗,還是要相信AI的力量,就是要相信ScalingLaw??梢钥吹介_始郎博KN里面有一個,我們之前是相信dataScalingLaw,其實我們看到了很好的效果,其實下一步就是現(xiàn)在的testtimesScalingLaw。當(dāng)我們能給更多的數(shù)據(jù)、更大的訓(xùn)練時長,它總能出更好的效果,我覺得這就是一個需要堅信的或者AI界現(xiàn)在叫“thebitterlesson,苦澀的教訓(xùn)”,我們要堅信這個地方。
問:問題一:在VLA的訓(xùn)練中,在語言模型上是怎么避免大模型由于跟人類理解不同從而產(chǎn)生的反常識或者反人類習(xí)慣的生成指令,我們是如何解決的?在后續(xù)的強(qiáng)化訓(xùn)練中,理想用一組24的案例去證明,那我們是以什么樣的標(biāo)準(zhǔn)決定這個case是訓(xùn)練OK的?VLA在理想i8上首發(fā),同時也是i8的核心賣點之一,如果您作為智駕的締造者,您是怎么去看待用什么樣更好的方式,去跟司機(jī)溝通,相互信任的感情也好,或者吸引顧客愿意購買,去展示我們VLA的功能
詹錕:首先以現(xiàn)在的技術(shù)而言大模型已經(jīng)有了一些初步的共識方法和思路。
第一,我們需要對不好的數(shù)據(jù)做精細(xì)的清洗,清洗的越多,質(zhì)量就越好。
第二,生成數(shù)據(jù)。之前會有很多大語言模型會有幻覺,本質(zhì)上因為“大模型”對這個東西是不理解的或者沒見過的,在它這個領(lǐng)域之外回答問題。所以我們需要構(gòu)建很多數(shù)據(jù),甚至生成數(shù)據(jù),去讓它把這個領(lǐng)域理解到位,能把所有的知識能夠知道,甚至知道它什么不知道,這是它很重要的一個能力。
通過這兩個思路,其實大幅能降低語言模型的幻覺能力,甚至反常識的東西。
第三,超級對齊,讓它去更做到符合人類價值觀,比如剛剛那個例子,不能跨對向車道,就是類似的思路,這是第一個問題。
湛逸飛:首先只有完整的走過這種閉環(huán)仿真的整個流程玩家才能真正的去做強(qiáng)化訓(xùn)練。
因為我們是在閉環(huán)仿真這個系統(tǒng)搭建起來的過程中積累了一套非常完整對車輛行為判斷的一套系統(tǒng),這套系統(tǒng)甚至還用了剛才提到的這些云端的32B模型,不僅是蒸餾完以后給車端用,在云端用這些大的模型去做推理、判斷這個車在仿真環(huán)境里的行為是否正確,同時我們從很多的維度,包括“安全、舒適、合規(guī)、效率”等,對車輛的行為做一個評價,總體來給出一個打分,我們也叫reward,目的是告訴他這個車在仿真環(huán)境里。
問:提問一個關(guān)于數(shù)據(jù)的問題,在仿真加進(jìn)來并且它發(fā)揮的作用越來越大之后,理想是怎么定義所謂的優(yōu)質(zhì)數(shù)據(jù)或者什么是不好的數(shù)據(jù),是不是說對模型迭代有促進(jìn)作用的數(shù)據(jù)就叫優(yōu)質(zhì)數(shù)據(jù),但這個定義可能又太寬泛,理想有沒有一些可以量化的衡量標(biāo)準(zhǔn)。
湛逸飛:我們需要的數(shù)據(jù)用一個詞總結(jié)叫“老司機(jī)數(shù)據(jù)”。在訓(xùn)練過程中,對數(shù)據(jù)的篩選。從去年端到端開始一直到現(xiàn)在,我們在云端有很多程序,甚至是云端的大模型,對這些數(shù)據(jù)進(jìn)行檢查,來檢查他們是否符合我們所定義的“老司機(jī)”的標(biāo)準(zhǔn)。比如他在正常行駛的時候,不可以不居中。
舉一個例子,望京地區(qū)有一些右轉(zhuǎn)車道上有違停車道,我們到底需不需要這個車輛可以壓著實線繞行過去,如果不壓著實線繞行過去,你在望京地區(qū)可能就沒法完成右轉(zhuǎn)。所以我們對這些數(shù)據(jù)的理解,是花費了很大的功夫,在這個基礎(chǔ)上做了很多清洗,總量還是1000萬,但實際上這里面是在進(jìn)行不斷替換的。
郎咸朋:我們有實驗?zāi)P椭螅馽ornercase場景以及一些困難場景的數(shù)據(jù),我們會通過生成數(shù)據(jù)來提供。
剛才你說是不是能提升性能數(shù)據(jù)就是好數(shù)據(jù),你剛才問了這樣一個觀點。從某種意義上說是,但是在端到端的時候就是這樣的。但是在端到端的時候,我們的數(shù)據(jù)更多是用來訓(xùn)練端上的模型,但是到了強(qiáng)化學(xué)習(xí)之后,數(shù)據(jù)其實更大的作用是來訓(xùn)世界模型,讓世界模型變的更加符合真實世界。
我們更多的訓(xùn)練數(shù)據(jù)是來自于生成數(shù)據(jù)的。因為我覺得量上來說,或者類別來說,已經(jīng)足夠了。但是在細(xì)分的類別上,還是需要更多的用生成數(shù)據(jù)來補(bǔ)充我們的訓(xùn)練。
各家做的也都不太一樣,5年前確實理想作為一個追隨者進(jìn)入了自研的自動駕駛賽道,但我們對自動駕駛的思考并不是從2020年開始的,我們剛進(jìn)理想的時候,當(dāng)時李想面試的時候跟我聊,說你覺得最重要的是什么,比如想在自動駕駛做成功或者做到第一?
我說現(xiàn)在來看就是數(shù)據(jù),雖然說別的都很重要,但數(shù)據(jù)必須要提前開始準(zhǔn)備,我們是從理想ONE開始做數(shù)據(jù)閉環(huán)的一些工作,當(dāng)然那時候數(shù)據(jù)還比較少。給大家公布一個數(shù)字,其實2021年大家也覺得我們做的挺快的,雖然一些地平線芯片的加持,有一些可能當(dāng)時做的ADAS也不是特別難,但有工作量很大,那時候我們訓(xùn)模型的數(shù)據(jù)并不是買了個數(shù)據(jù)什么的,而是在2020年我們通過第一個完整的交付年,累計了1500萬左右的有效回傳數(shù)據(jù),我們確實做了很多數(shù)據(jù)標(biāo)注,樣本是從這積累出來的。
從那開始慢慢往后做,這5年做下來,從去年端到端開始,業(yè)界或我們的競爭對手真正把理想自動駕駛當(dāng)回事了,但他們?yōu)闀r已晚,因為這些能力建設(shè)不是一天兩天就能完全建立起來或者達(dá)到我們效果的,今年開始做VLA,我們是第一個提出并馬上是第一個交付的,很多人還在嘴上說,還在用端到端的方式去做VLA。
剛才我畫了一個圖想表達(dá)一個觀點如果還是沿著端到端思路去做所謂VLA的話,你的速度一定會變慢,不管是1000萬,還是2000萬,哪怕是1個億的Clips,首先你要訓(xùn)1億個Clips需要多大的訓(xùn)練算力,模型得搞到多少先不說。另外,你的迭代速度會變慢。
如果你沒有很好世界模型、仿真環(huán)境,這個世界模型不是部署在車端的,是在云端的,云端的世界模型真的是幫助我們算法訓(xùn)練的,模擬了一個真實的物理世界,我們現(xiàn)在是場景的生成,在結(jié)尾處我們給它秀了一段1公里×1公里的完整的區(qū)域仿真,如果再做的完善一點,我們最終的目標(biāo)是讓我們算法在模擬世界里跑極品飛車,像《SimCity》,是模擬的一個城市環(huán)境。我們希望在我們生存的世界里是一個完整的Agent,是智能體,有車來撞它時它會躲,有什么人走過來它會讓什么的。
所以我剛才秀了一段我們3D資產(chǎn),就是每一個里面的交通參與者,我們是精致到我都有他的3D模型,并且賦予他Agent的智能體,所以他在我的環(huán)境里不管是靜態(tài)的東西,還是動態(tài)的東西是一個完整的、真實的物理世界的“純仿真、純模擬”,如果達(dá)到這種程度,我把我的車,我把我的算法在這里面,就相當(dāng)于他在這個環(huán)境下跑一天等于你在真實世界里跑好幾年的訓(xùn)練速度,那時候會非???。
所以,我覺得VLA現(xiàn)在可能看起來很慢,就像去年端到端一樣,其實端到端已經(jīng)非??炝耍瑥?021年我們走到端到端走了3年多時間,其實還是站在巨人的肩膀上,如果再往前走,整個行業(yè)如果從規(guī)則算法走到端到端的話,我可以說走了10年左右,但是從端到端開始迭代會非??欤驗槟菚r候整個工程、整個數(shù)據(jù)都會成熟起來,到VLA,我認(rèn)為也是這樣一個速度,大家可能現(xiàn)在感覺VLA還沒有什么感覺,就是做了一個比端到端稍微好一點的一個感受。
但一年之后你看到一個1000MPI的產(chǎn)品放在你面前的時候,相信大家都會覺得自動駕駛真的開來了。我相信在這里面真正有技術(shù)、真正有能力、真正有責(zé)任心的企業(yè)一定會率先跑出來,我相信理想肯定是這里面第一個會走出來的。
延伸閱讀:與 特朗普卻:下令將兩艘||核潛艇部署至俄附近區(qū)域 的相關(guān)文章