“理想汽車已經(jīng)積累了12億公里的效數(shù)據(jù),云端算力規(guī)模已達13EFLOPS?!?/p>
作者丨王瑞昊
編輯丨田哲
7月29日,理想汽車發(fā)布首款純電SUV——理想i8,售價32.18萬至36.98萬元。這款六座家庭SUV被視為理想在純電賽道上“能否翻篇”的關(guān)鍵一步。
一位內(nèi)部員工告訴雷峰網(wǎng),理想i8的定價參考了理想L8,公司希望i8的市場成績至少要達到理想L8的水平,L8上市首月即交付5293輛。
不過,理想i8沒能實現(xiàn)上市即交付,而是要到8月20日。
雷峰網(wǎng)了解到,理想下一代智能輔助駕駛方案——VLA司機大模型會隨著i8同步交付,這或許是整體交付要等到8月20日的主要原因。
為了成功切換到VLA,理想汽車從去年開始預研,今年初開始以項目組的形式攻關(guān)工程化研發(fā),希望能首發(fā)搭載理想i8,成為i8的一個重要賣點。
盡管目前VLA還存在一些缺陷,比如在一些場景中的體驗還不如端到端版本?!袄硐胧菢I(yè)界第一個量產(chǎn)VLA的車企,還存在一些缺陷,”理想汽車自動駕駛研發(fā)高級副總裁郎咸朋說,“但在自動駕駛領(lǐng)域,VLA解決的是一個相對統(tǒng)一的駕駛范式,有機會實現(xiàn)GPT時刻?!?/p>
從輕圖、無圖到端到端,再到現(xiàn)在的VLA,每一次變化,背后都伴隨著模型能力的提升與技術(shù)瓶頸的突破。
理想上一代方案“端到端+VLA”的原理是模仿學習,用人類駕駛的數(shù)據(jù)訓練模型,決定模型的性能是數(shù)據(jù)規(guī)模與數(shù)據(jù)質(zhì)量,數(shù)據(jù)越多,覆蓋的場景就越多;數(shù)據(jù)的質(zhì)量越好,訓練出來的模型就越像老司機。
過去一年,理想在端到端的MPI(平均接管里程)上取得了明顯進展。去年7月第一個無圖版本的MPI是十幾公里,隨著訓練數(shù)據(jù)從百萬級擴大到1000萬Clips(視頻片段),到今年初MPI提升到近100公里,7個月內(nèi)增長近10倍,進展迅猛。
但理想汽車發(fā)現(xiàn),從1000萬Clips開始,模型性能的提升明顯放緩。簡單堆數(shù)據(jù)已難以拉動模型進步,有價值的訓練樣本越來越稀缺,進入“提分難”階段。就像考試,從不及格提升到八九十分很快,但再往上提5分、10分非常難。從3月到7月底近5個月,模型性能只提升了2倍左右,遠低于此前速度,說明端到端模型已遇到數(shù)據(jù)質(zhì)量和訓練效率的雙重瓶頸。
“本質(zhì)來看,端到端就像猴子開車一樣,這套模仿學習不具備邏輯思考能力?!崩上膛蠼忉屃硕说蕉擞龅狡款i的主要原因。
VLA的出現(xiàn)給了理想解決端到端瓶頸的一個全新思路。
VLA代表的是一種以強化學習為核心的新范式,不再依賴100%真實人類駕駛數(shù)據(jù)。因為人類數(shù)據(jù)分布有限,多為白天、晴天、無事故等安全場景,缺乏訓練所需的極端或危險場景。
VLA通過生成式方法和仿真環(huán)境,主動構(gòu)造稀缺數(shù)據(jù),并在仿真中反復試錯迭代。其核心是仿真迭代效率,誰的仿真跑得快、場景全,誰的模型能力進步就快,這與傳統(tǒng)“堆數(shù)據(jù)”的模仿學習路徑截然不同。
在強化學習的加持下,郎咸朋表示VLA具備思維能力、溝通能力、記憶能力、自主學習能力等四大核心能力,也即是“能思考、能溝通、能記憶、能自我提升”。
理想汽車得以在短時間內(nèi)推出VLA,前提是已經(jīng)在數(shù)據(jù)、算法、算力和工程等領(lǐng)域積累了足夠多的能力,比如截至到今年7月份,理想汽車已經(jīng)積累了12億公里的效數(shù)據(jù),云端算力規(guī)模已達13EFLOPS(2萬張H20等效訓練卡,3萬張等效L20推理卡)。
“這些能力,不是誰都有,”郎咸朋說,“我們一定會比友商早,我們一定是第一個?!?/p>
以下為雷峰網(wǎng)等媒體與郎咸朋、理想汽車自動駕駛高級算法專家詹錕、理想汽車自動駕駛高級算法專家湛逸飛的對話實錄,略經(jīng)刪減:
問:VLA司機具備推理能力,并且表現(xiàn)更像人了,但是需要幾秒鐘的推理時間,請問在突發(fā)場景下,VLA司機是怎么進行快思考的?
郎咸朋:您認為思考過程很慢實際上是顯示的原因,本身推理速度是很快的,只是為了讓大家能夠看地更清楚我們摘取了一些重要的思考過程顯示出來。實際上現(xiàn)在VLA的推理幀率在10Hz左右,相比之前的VLM提升了三倍多,之前端到端的VLM部分是3Hz左右。
問:您剛才提到現(xiàn)在用MindGPT作為基座模型進行訓練,這比之前的模型好用嗎?
詹錕:我們自研的基座模型對部署VLA有很大作用,我們VLA是4B模型,比以前更大了,但推理速度更快了。核心原因是我們自研的基座架構(gòu),并不是業(yè)界任何一個開源模型都能達到這個效率。之前在AITalk上提到過我們是MoE的0.4×8的架構(gòu),目前沒有任何一個架構(gòu)是這樣的,這是我們與基座團隊共同研發(fā),專門對嵌入式芯片做了定制的MoE混合專家架構(gòu),在這個架構(gòu)上我們才能達到這樣的效果。
VLA的推理幀率在10Hz左右,每一幀都會經(jīng)過語言模型,這其中會有比較快的思考,也有會有比較長的思考,我們做了很多的優(yōu)化,把思考過程盡可能地能夠在車端推理出來。
問:是否可以用更通俗的方式介紹一下VLA模型的難度在哪里?對企業(yè)的要求是什么?如果一個企業(yè)想要落地VLA模型會面臨哪些挑戰(zhàn)?
郎咸朋:曾經(jīng)也有很多人問過如果車企想做VLA模型是不是可以跳過前面的規(guī)則算法、端到端階段,我認為是不行的。
雖然VLA的數(shù)據(jù)、算法等可能跟之前不太一樣,但是這些仍然是要建立在之前的基礎上的,如果沒有完整地通過實車采集的數(shù)據(jù)閉環(huán),是沒有數(shù)據(jù)去訓練世界模型的。
理想汽車之所以能夠落地VLA模型,是因為我們有12億數(shù)據(jù),只有在充分了解這些數(shù)據(jù)的基礎上,才能夠更好地生成數(shù)據(jù)。如果沒有這些數(shù)據(jù)基礎,首先不能訓練世界模型,其次也不清楚要生成什么樣的數(shù)據(jù)。同時,基礎訓練算力和推理算力需要大量資金和技術(shù)能力的支撐,如果沒有之前的積累是不能完成的。
問:請問未來理想汽車提升自動駕駛能力的過程中,對于算力儲備和卡的規(guī)劃是怎樣的?是否能夠介紹一下從規(guī)則算法時代到模仿學習階段,再到強化學習階段,在這三個階段期間,理想汽車的算力增長節(jié)奏是怎樣的?
郎咸朋:算力增長過程與技術(shù)方案相關(guān)。在規(guī)則算法時代,訓練的卡只是用于訓練BEV模型和感知模型,相對數(shù)量較少,但在端到端時代,模型訓練需要大量算力及訓練卡,我們的訓練卡從不到1EFLOPS增長到去年的10EFLOPS,增長了10倍左右。我們認為訓練算力是一方面,同時要增加推理算力。
問:智能駕駛存在一個“不可能三角”,也就是效率、舒適和安全三個目標之間是互相制約的,目前階段可能難以同時實現(xiàn)。請問理想汽車的VLA目前在當前階段最先優(yōu)化的指標是哪一個?剛剛提及到MPI,是否可以理解為目前理想汽車最終的指標是提升安全性以有效減少接管?
郎咸朋:MPI是我們衡量的指標之一,還有一個指標是MPA,也就是指發(fā)生事故的里程,現(xiàn)在是300萬公里左右。理想車主的人駕數(shù)據(jù)是60萬公里左右出一次事故,而在使用輔助駕駛功能的情況下是350到400萬公里發(fā)生一次事故。這個里程數(shù)據(jù)我們還會持續(xù)提升,我們的目標是將MPA能提升到人類駕駛的10倍,也就是比人駕安全10倍,我們希望在輔助駕駛功能下能夠做到600萬公里才出一次事故,但這必須等到VLA模型提升之后才能做到。
針對MPI,我們也做過分析,可能一些安全風險問題會導致接管,但有時候舒適度不好也會導致接管,比如急剎、重剎等,因為并不一定每次都會遇到安全風險,但是如果駕駛舒適度不好,用戶依然不想用輔助駕駛功能。因為MPA可以衡量安全性,在MPI方面,除了安全性之外,我們重點提升了行車舒適度,如果體驗了理想i8的輔助駕駛功能,會體驗到舒適度比之前的版本有很大提升。
效率是排在安全和舒適之后的,比如走錯路,雖然效率有所損失,但我們不會通過一些危險的動作立刻糾正,還是要在安全和舒適的基礎上去追求效率。
問:剛提到今年實車測試是2萬公里,請問大幅減少實車測試的依據(jù)是什么?
郎咸朋:我們認為實車測試有很多問題,成本是其中一方面,最主要的是我們在測試驗證一些場景時不可能完全復現(xiàn)發(fā)生問題時的場景。同時,實車測試的效率太低了,在實車測試過程中要開過去之后再復測回來,我們現(xiàn)在的仿真效果完全可以媲美實車測試,現(xiàn)在的超級版本和理想i8的VLA版本中90%以上的測試都是仿真測試。
從去年端到端版本我們就已經(jīng)開始進行仿真測試的驗證,目前我們認為它的可靠性和有效性都很高,所以我們以此替代了實車測試。但仍有一些測試是無法替代的,比如硬件耐久測試,但和性能相關(guān)的測試我們基本上會使用仿真測試替代,效果也非常好。
問:通常的做法是保持實車測試規(guī)模,大幅增加仿真測試數(shù)量,從理想汽車的實際反饋看,仿真測試的效果是比實車測試好很多對嗎?
郎咸朋:是的。仿真測試效果好,成本低,為什么不用仿真測試呢?我們保留實車測試是為了一些必要內(nèi)容,任何技術(shù)的提升一定伴隨著研發(fā)流程的變革,工業(yè)時代來臨后,刀耕火種的流程被機械化替代;信息時代后,網(wǎng)絡替代了大量工作。在自動駕駛時代也是一樣,端到端時代來臨后,我們進入了使用AI技術(shù)做自動駕駛的方式,從雇傭大量工程師、算法測試人員,到數(shù)據(jù)驅(qū)動,通過數(shù)據(jù)流程、數(shù)據(jù)平臺和算法迭代提升自動駕駛能力。而進入了VLA大模型時代,測試效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影響快速迭代的因素迭代掉,如果這其中仍有大量的實車和人工介入,速度是會降低的。并不是我們一定要替代實車測試,而是這項技術(shù),這個方案本身就要求要使用仿真測試,如果不這樣做,并不是在做強化學習,并不是在做VLA模型。
問:剛剛分享了端到端的瓶頸和一些無法解決的問題,VLA是當時唯一考慮的路線嗎?還是有其它的選擇?
郎咸朋:我們并沒有很糾結(jié)方案。因為我們一直保持著對前沿算法的預言和探索,做端到端的時候我們也在考慮下一代人工智能技術(shù),當時業(yè)內(nèi)最有前途的就是VLA技術(shù)方案,但并不是只是用于自動駕駛,它是具身智能領(lǐng)域的技術(shù)。我們認為它也是未來機器人領(lǐng)域的通用技術(shù)框架,其實自動駕駛也是一種機器人,是自主行駛的機器人,如果未來我們希望做其它機器人,也都可以基于類似的VLA框架,所以我們經(jīng)過了長時間的調(diào)研和探索,制定了VLA的技術(shù)方向。
問:剛郎博提到如果量化精度高的話,可以在Thor芯片上實現(xiàn)翻倍的算力,為什么理想汽車能夠最大限度壓榨芯片的能力?基于這個能力,理想汽車是否還會自研智駕芯片?
詹錕:我們從去年開始用Orin芯片做大模型部署,當時英偉達覺得這是不可能的,但我們認為這是必須要做的,和英偉達做了非常詳細的剖析和拆解,我們的工程團隊、部署團隊做了非常多的工作,包括我們魔改CUDA的底層,重寫PTX底層指令,才能實現(xiàn)現(xiàn)在的效果。
理想汽車自動駕駛團隊的工程部署能力是一以貫之的,從早期在地平線J3部署高速NOA,到在Orin芯片上部署大模型,再到現(xiàn)在在Thor芯片上部署VLA高頻快速的大模型。這些都是有工程積累和工程實踐的,很多技巧和分析方法,以及基礎設施的工具鏈都繼承下來了。這其中很關(guān)鍵的一點是我們打磨細節(jié)的能力,芯片能否被壓榨最主要的事做底層分析,解決瓶頸熱點。剛剛郎博分享了很多我們解決的問題,大家會發(fā)現(xiàn)VLA從最初推理一幀需要500-600毫秒到最后實現(xiàn)10Hz,提升了近10倍的效率,這其中有非常多的細節(jié)都是我們在遇到問題后拆解當前芯片適配的算法,調(diào)整算子,讓算子和芯片的能力更匹配。大家常用的推理模型會用FP16,我們把它降到FP8,性能做了非常的提升,同時FP4也是英偉達在最新的Blackwell架構(gòu)中非常推崇的,我們會進一步把芯片算力壓榨出來。
郎咸朋:自研芯片的核心原因是作為一個專用芯片能夠針對自己的算法進行特定地優(yōu)化處理,性價比和效率都會很高?,F(xiàn)在我們依然使用Thor芯片是因為英偉達對一些新的算子支持是比較好的,算力也比較充足,在整體VLA迭代過程中依然有變化的可能性,所以我們依然在用Thor芯片。如果未來算法鎖定,為了更好的效率和成本,大家都會考慮自研芯片的。
問:您剛才講到從規(guī)則到端到端+VLM是比較大的技術(shù)路線革新,但VLA其實沒有顛覆端到端+VLM,所以是否可以理解成VLA是偏向于工程能力的創(chuàng)新?
詹錕:VLA不只是工程方面的創(chuàng)新,大家如果關(guān)注具身智能,會發(fā)現(xiàn)這波浪潮伴隨著大模型對物理世界的應用,這本質(zhì)就是提出了一個VLA算法,我們的VLA模型就是想把具身智能的思想和路徑引用在自動駕駛領(lǐng)域。我們是最早提出,也是最早開始實踐的。VLA也是一種端到端,因為端到端的本質(zhì)是場景輸入,軌跡輸出,VLA也是如此,但算法的創(chuàng)新是多了思考。端到端可以理解為VA,沒有Language,Language對應的是思考和理解,我們在VLA中加入了這一部分,把機器人的范式統(tǒng)一,讓自動駕駛也能成為機器人的一類,這是算法創(chuàng)新,不只是工程創(chuàng)新。
但對于自動駕駛而言,很大的挑戰(zhàn)是必須要有工程創(chuàng)新。因為VLA是一個大模型,大模型部署在邊緣端算力上是非常具有挑戰(zhàn)的。很多團隊并不是認為VLA不好,而是因為VLA部署有困難,把它真正落地是非常具有挑戰(zhàn)性的事情,尤其是在邊緣端芯片算力不夠的情況下是不可能完成的,所以我們是在大算力芯片上才能部署。所以這不僅僅是工程創(chuàng)新,但的確需要工程部署大范圍優(yōu)化才能實現(xiàn)。
問:VLA大模型在車端部署的時候是否會有一些輕量化的版本,比如模型裁剪或蒸餾版本?如何在推理效率和模型之間做好平衡?
詹錕:在部署時的效率和蒸餾上我們做了非常多平衡。我們的基座模型是自研的8x0.4B的MOE模型,這是業(yè)界沒有的,我們在深入分析英偉達芯片后,發(fā)現(xiàn)這個架構(gòu)非常適合它,推理速度快的同時模型容量大,能夠同時容納不同場景、不同能力的大模型,這是我們在架構(gòu)上的選擇。
另外,我們是大模型蒸餾出來的,我們最早訓練了一個32B的云端大模型,它容納了海量的知識和駕駛能力,我們把它做出的思考和推理流程蒸餾到3.2B的MoE模型上,配合Vision和Action,使用了Diffusion。我們用這樣的方法做了非常多的優(yōu)化。從細節(jié)上來看,我們也針對Diffusion做了工程優(yōu)化,并不是直接使用標準Diffusion,而是進行了推理的壓縮,可以理解為一種蒸餾。以前Diffusion可能要推理10步驟,我們使用了flowmatching流匹配只需要推理2步就可以了,這方面的壓縮也是導致我們真正能夠部署VLA的本質(zhì)原因。
問:我們在測試時看到了,可以對VLA說前進10米。您也提到了這個概念,大模型在訓練數(shù)據(jù)中是沒有學習過這么具體的概念的,理想汽車是如何發(fā)現(xiàn)\了解背后機制的?另外,人類是否能信任大模型做出的判斷?
詹錕:首先,我們不會單純地讓模型學習向前走10m、12m這樣生硬的數(shù)據(jù),但是在海量的通識數(shù)據(jù)中,有很多對物理空間的理解。比如前方白車距離多少米,前方路沿和我有多少距離,而且現(xiàn)在大模型也已經(jīng)加入很多物理空間的知識,包括現(xiàn)在的ChatGPT、千問都具備這樣的能力,把這些能力在大模型里學習之后,我們只需要在action中把它體現(xiàn)出來。剛剛分享了五步訓練法,第一步就是加入通識能力和物理世界的知識,在第二步時進行一些微調(diào),將這樣的能力和action結(jié)合,就能夠?qū)崿F(xiàn),這是端到端的學習思路就能做到的。其實有一些背后的機制和現(xiàn)在的大模型是非常一致。當我們把海量數(shù)據(jù)喂給它以后,這些數(shù)據(jù)具備組合泛化能力,并不是教什么學什么,當量級達到一定規(guī)模時,會涌現(xiàn)出一些能力,包括行為,并不是說必須11m、12m、13m,分別教才行。它懂了數(shù)字,懂了米數(shù),當你在給它一個新的東西,它就存在一種組合泛化的機制。
這是大模型理論研究非常多的,但目前這樣的機制是可以在各個領(lǐng)域進行泛化應用的。所以我們很多能力和知識就是各個學科交叉的融合,我們也非常關(guān)注現(xiàn)在大模型的進展,隨時可以向自動駕駛上遷移。
問:郎博提到物理世界中實車測試是無法100%復現(xiàn)場景的,在仿真測試過程中是怎樣做到100%復原的?為什么理想汽車可以做到?
湛逸飛:我們在2024年進行了150多萬公里的實車測試。實際上我們在2024年就已經(jīng)具備了世界模型仿真能力,我們在用這150多萬公里的實車測試來驗證仿真環(huán)境的可靠性。事實上,最初世界模型仿真復現(xiàn)率或真實性存在問題,但我們通過與實車測試數(shù)據(jù)對比,在過去一年里針對仿真測試中的漏洞或缺陷進行了大量工程和算法優(yōu)化,讓仿真一致性達到了非常高的程度。雖然并沒有達到100%,但準確率也可以在99.9%以上。舉一個簡單的例子,在仿真環(huán)境中最開始紅綠燈的變化在200米外是看不清楚的,于是我們針對紅綠燈的視野模型仿真進行了大量的優(yōu)化,包括對30°相機分辨率的提升。我們用過去一年的時間將仿真系統(tǒng)的可靠性提升到了很好的程度,才會放心地去使用這套系統(tǒng)。
問:從行業(yè)角度來看,目前智駕體驗是比較趨同的,未來理想汽車是否會將自己的智駕能力向行業(yè)輸出或開源或向其他車企售賣?
郎咸朋:我認為是可以的,我們希望為行業(yè)做貢獻。但前提是,第一,我們是不是能夠很好地驗證這套系統(tǒng),因為整個VLA的發(fā)展還是在技術(shù)周期的初期階段,需要繼續(xù)提升;第二,是否其他人有能力和我們一起去做這件事,因為他也需要有自己的評測方式、仿真環(huán)境,以及強化學習訓練能力。
從公司或我個人的態(tài)度上,是希望能夠促進行業(yè)發(fā)展,但從目前VLA技術(shù)發(fā)展階段來看,依然是比較初級的,它的發(fā)展速度可能會比較快,像端到端一樣,用一年的時間將效果提升10倍。行業(yè)發(fā)展速度會非常快,我相信明年溝通的時候可能會討論一下開源的問題。
問:郎博提到了VLA語言交互是很重要的一部分,我們在公開道路試乘中發(fā)現(xiàn),當前的語言交互在理解復雜指令上還有提升空間。針對這類理解能力的提升,接下來會有哪些關(guān)鍵改進?我們何時能實現(xiàn)更自然的“怎么說就怎么做”的交互體驗?VLA還處于起步階段,未來可預見的關(guān)鍵發(fā)展階段有哪些?您提到VLA要成為“更好的家庭司機”,那在駕駛風格或“司機性格”的個性化定制方面,未來是否會有更多可能性?
詹錕:我先回答語音問題,因為語音交互是對整車全系統(tǒng)的交互,這個地方我們目前是剛給大家看到VLA初步版本,有些它對語言的理解是一個全系統(tǒng)任務,就是你對它說一句話,它到底是用來執(zhí)行車控還是用來執(zhí)行智駕需要有一些判斷,我們現(xiàn)在肯定是為了保持準確,防止出現(xiàn)一些誤判,比如你本來不想操控車的行為,突然去操控了,這肯定是存在一些還需要迭代和優(yōu)化的地方。
我覺得未來有一個很重要的趨勢是整個車會有一個統(tǒng)一的大腦,當這個車對統(tǒng)一大腦做的迭代更好的時候,不光是理解智駕、理解車機、理解整車,它還可以做出更精準的,到底我是在操縱車,還是在操縱空調(diào),還是在打開窗戶,還是在播放音樂,這方面會有更好的理解,我們會對大腦做更長遠的統(tǒng)一,這是我們后續(xù)長期會去做的方向。
另一個是我們現(xiàn)在對語言的交互、泛化理解,隨著數(shù)據(jù)量增加,會越來越多,而且會有很快的迭代,也可以想象其實大語言模型早期也會有一些很傻的行為,當我們收集到更多反饋,收集更多迭代以后,進步會非常快,這其實是我們逐漸使用過程中會快速迭代的一個能力。
郎咸朋:我們也在考慮給不同的車、不同的使用者跟你相類似的駕駛風格的體驗,不會所有車都是一套駕駛風格,因為強化學習是有這個能力來支撐它這個車越開越像你的風格或體驗,之前端到端可能還不具備這樣的能力。不是設定的你自己的路線、你自己駕駛的風格會越開越像你的,我們也在考慮端上的強化訓練。
問:在Thor的FP8格式下實現(xiàn)1000TOPS算力,而行業(yè)普遍采用FP16處理算子。如何做到將精度從FP16降至FP8時保持模型精度(不掉點)?向FP4演進時需突破哪些關(guān)鍵技術(shù)?Blackwell已支持FP4原生硬件,但INT4如何處理?Orin-X等平臺缺乏FP4原生支持,如何平衡硬件兼容性與計算效率?FP4實現(xiàn)2000TOPS等效算力后,能否支撐類人感知的幀率(如3FPS)?關(guān)鍵瓶頸會出現(xiàn)在哪里?
詹錕:我先解釋一下,我們把數(shù)值精度,首先從FP16或者FP32、FP8和INT8這樣去縮減的。
首先這是業(yè)界比較共識的一個問題,在大模型領(lǐng)域,大家對數(shù)值精度的要求會降低,這也是為什么到LLM領(lǐng)域,大家看到DeepSeek開始推它的FP8,為什么以前不行?也是因為模型參數(shù)規(guī)模過大,對它的容錯變低了,它通過更多的層,更多的數(shù)據(jù)容量,把之前的異常值降的越來越少,這是大模型一個特性,這也是為什么到VLM、VLA領(lǐng)域以后,大家會逐漸往低精度,更精細的計算密集型的算子上去靠近,這是很大一個變化。如果我們還用原來的方法,那是不太行的,它會要很高的FP32、FP16這樣的數(shù)值精度,那到VLM才能做這樣的事情。
另一個,量化訓練。傳統(tǒng)的訓練一般都會拿FP32去做訓練,所以拿出來的參數(shù)就是FP32的數(shù)值精度。那我們有一個訓練過程叫QAT,就是在訓練過程中,我把參數(shù)就把它變成INT8或FP8,這樣的過程中,我們只能用數(shù)據(jù)精度去做模型訓練迭代,這樣我們拿出來的模型就能適配模型的推理精度。
以往企業(yè)是很難做好的,是因為這個訓練過程中會非常不穩(wěn)定,這里面會有大量的訓練框架優(yōu)化,訓練策略的優(yōu)化才能做??赡芪蚁饶肍P32把模型訓練收斂了,我用QAT的方式,訓練成FP8這樣的小數(shù)值精度。
另一個很重要的,我們還是做了大量的數(shù)據(jù)清洗。以往出現(xiàn)這種數(shù)據(jù)噪點還是因為有臟數(shù)據(jù),這也是為什么剛剛說我們還是在1000萬上面做,但是我們這里面做了大量的數(shù)據(jù)清洗、數(shù)據(jù)儲備工作,把不好的數(shù)據(jù)去掉,這樣才能讓訓練變得穩(wěn)定、變得收斂,這也是目前像大語言模型大家常規(guī)的迭代方向,把數(shù)據(jù)精度做的越來越精細,把數(shù)據(jù)清洗得越來越干凈,它訓練也會越來越收斂。
第一個方向是會往FP8、INT8方面做。另一個,F(xiàn)P4,這也是像英偉達他們這些最先進的芯片提出來的,我們能不能把算力再降1倍,原來是要8個字節(jié)才能算一個點,我們變成4個。這里面很重要一點,模型的數(shù)值參數(shù)范圍一定要夠小,我們訓練要更加穩(wěn)定,每一次數(shù)據(jù)用量對待你的模型訓練迭代都是有更高的要求,目前看我們是有機會做到這里的。
如果你想做FP4,所以你要在訓練上花更多精力,做更多的數(shù)據(jù)迭代、數(shù)據(jù)清洗,才能往這方面做。目前我們也在做這樣的嘗試,很快就可以在把Thor的芯片壓榨出來。
回到Orin,由于硬件限制,確實沒辦法做FP8這樣的計算,但是它有INT8。所以我們在Orin上,現(xiàn)在也是用了INT4的量化,再加FP16和INT8的混合精度推理,逐漸把大模型在Orin上部署。再往后走,由于硬件的限制,我們不能在做更多的精度壓縮。但是我們會同樣把VLA這樣的模型體驗放在Orin和Thor上同平臺。
問:到2000TOPS之后,幀率能不能跑到30幀去?
詹錕:目前來看我們在絕大部分場景10Hz,特別是城市,10Hz是夠用的。如果我們算力能用FP4,那肯定是能double20Hz,是可以做到。但是需不需要跑到30,這個我們得看情況,可能有人說特斯拉跑到30,我們了解到它也并不是完整的30Hz,它也有一些其他的方法做這樣的東西。那我們還是把反應速度和體檢做上來,并不是追求一個簡單的數(shù)字。
問:理想是國內(nèi)VLA模型最早落地的車企,肯定也是摸著石頭過河,在研發(fā)VLA過程中哪方面挑戰(zhàn)是最大的,或者花費時間最長?在摸著石頭過河肯定有很多流程或什么被驗證是錯的,就踩過哪些坑?從端到端切換到VLA的時候,可能不僅僅是技術(shù)路線的切換,可能整個組織架構(gòu)也需要調(diào)整,理想在研發(fā)VLA組織架構(gòu)進行了怎樣的調(diào)整?
郎咸朋:我們馬上就要交付VLA了,肯定也是國內(nèi)最早落地VLA的企業(yè)。
首先,我覺得挑戰(zhàn)最大的是要把整個研發(fā)流程進行迭代,每一個技術(shù)革新也伴隨著研發(fā)流程或研發(fā)方式的迭代,去年端到端需要一個數(shù)據(jù)驅(qū)動流程,我們之前做得很好,到今年一定要做強化學習的流程,就必須要快速驗證我們世界模型的可靠性、有效性,也需要快速搭建我們高效仿真環(huán)境。我們今年很多推理卡也需要大量的去購買、去部署等等,我覺得研發(fā)挑戰(zhàn)最大的除了技術(shù)本身之外,是伴隨技術(shù)迭代的研發(fā)流程改革。
組織層面,我們組織并不是大家想象的是一個職能性的組織,還是IPD組織,可以理解成是一個大的項目的形式,雖然大家都在現(xiàn)在部門里可能有一些部門的分工、分配,但不管去年做端到端,還是前年做無圖,還是今年做VLA,都是成立了內(nèi)部項目組來做,對我們來說,組織挑戰(zhàn)倒還好,因為大家這么多年也比較習慣于這種項目制的研發(fā)了,而且這反而成為我們一種優(yōu)勢,端到端去年是180個人,今年VLA稍微多一點,200多個人,其實并不是弄幾千人去做,我覺得不需要,我覺得做得最好的是特斯拉,永遠都是那一兩百人,做的還都挺好的。
問:后續(xù)還有很多國內(nèi)友商也在跟進VLA,理想在整個研發(fā)過程中,踩過最大的坑能給大家介紹一下嗎?
郎咸朋:像我們?nèi)ツ曜龆说蕉艘埠茫衲曜鯲LA也好,產(chǎn)品自己本身就會說話,今天體驗到的這些產(chǎn)品就是我們研發(fā)的結(jié)果,如果遇到問題,遇到坑的話,不會進展這么快。
非要說坑可能沒有,但我覺得這里面有個最大的體驗,還是你對整個行業(yè)的判斷或整個自動駕駛認知決定了你是否會踩坑。
去年也有人問過我類似的問題,我覺得我們是不斷持續(xù)迭代對自動駕駛甚至人工智能認知的,很早我們就理解自動駕駛問題是一個人工智能問題,我在之前很多會上或?qū)ν獾难葜v上也都提到過,你想做好人工智能必須做好你的算法、數(shù)據(jù)和算力。
我們第一個要突破的是數(shù)據(jù)問題,如果沒有數(shù)據(jù),其實你的算力、算法再好也訓不出來,企業(yè)不可能空轉(zhuǎn),你必須有很好的數(shù)據(jù)。我們從2021年開始做AD的時候就開始搭建自己的數(shù)據(jù)閉環(huán),所以我們在去年做端到端的時候能拿出這么多數(shù)據(jù)去做。
但在去年做端到端的時候一直也在反思,是不是端到端就夠了,如果不夠的話我們還需要再做什么,去年我們一直在研發(fā)VLA的一些預研,其實VLA的預研代表的是我們對人工智能的理解并不是一個模仿學習,一定像人類一樣是有思維的,是有自己推理能力的,換句話說它一定要去有能力解決它沒有見過的事情或未知的場景,因為這個在端到端里可能有一定的泛化能力,但并不是足以說有思維。
就像猴子一樣,它可能也會做出一些你覺得超越你想象的事情,但它不會總做出來,但人不是,人是可以成長的、可以迭代的,所以我們一定要按照人類的智能發(fā)展方式去做我們的人工智能,我們就很快從端到端切換到了VLA方案去做。
我們一直認知還是比較好的,小坑肯定有,比如算力儲備的多少,交付快點慢點等,小的工程細節(jié)、優(yōu)化,肯定各家都會遇到,我覺得遇到小坑其實沒有問題,但不要遇到大的判斷失誤,我覺得我們運氣還是可以的。
詹錕:我補充一下,可能也不叫坑,是個經(jīng)驗,還是要相信AI的力量,就是要相信ScalingLaw??梢钥吹介_始郎博KN里面有一個,我們之前是相信dataScalingLaw,其實我們看到了很好的效果,其實下一步就是現(xiàn)在的testtimesScalingLaw。當我們能給更多的數(shù)據(jù)、更大的訓練時長,它總能出更好的效果,我覺得這就是一個需要堅信的或者AI界現(xiàn)在叫“thebitterlesson,苦澀的教訓”,我們要堅信這個地方。
問:關(guān)于芯片您有解釋怎么做好量化精度的,但是我好奇的點是,感覺配合Thor芯片上車的過程,應該也不太容易。開始的時候可能連車規(guī)也沒有,你們雙方當時是怎么磨合的?第二個問題,關(guān)于云端大模型。剛才有說理想是32B,基于這個大模型,所以推理能力從10步縮減到2步。但是我看有的友商說自己是72B的超大規(guī)模參數(shù),世界基座模型,他們是主流模型的35倍。所以這種是越大越好嗎?車企到底用多少B的模型是最合適的,判斷的維度是什么?
郎咸朋:我們是第一次用Thor芯片上車的,我們也是在過去L9的時候,第一個用Orin芯片。再往前,我們是第一個用J3芯片。其實我們積累的很多跟芯片廠商的供應商的這種合作經(jīng)驗,包括再往前推算J3芯片,當時J3芯片設計很有缺陷。但是我們會跟合作伙伴一起,去做一些優(yōu)化和迭代,這都是很正常的一個過程。
在這個過程當中,一方面芯片廠商會根據(jù)我們的要求,去做一些芯片設計或者芯片本身的一些調(diào)整;另外,我們也會根據(jù)芯片本身的一些特點,如果它達不到我們的要求,我們也會去迭代算法、方案,針對它進行調(diào)整。因為一個新的芯片應用,一定是伴隨著一些相互之間的磨合和迭代。
那么J3是我們第一個用的自研芯片,第二個就是英偉達的Orin芯片。Orin芯片其實在剛上來的時候,我們雖然不是第一個拿到了,而且一下子拿到很多。但是我們是第一個量產(chǎn)上車的,第一個交付的,因為他們交付是比我們晚了幾個月。我們在整個Orin芯片,從拿到到交付大概用了八九個月的時間,別人可能用12個月以上的時間。
一個方面是我們有很好的工程優(yōu)化落地能力之外;另一方面,一個新的芯片做出來,一定還是有一些調(diào)整的。我們的迭代速度會比較快,我們不會死扣著一個方案不放,我們還會根據(jù)芯片自己的特點,去做一些調(diào)整和優(yōu)化。
Thor芯片它是一個全新的芯片,在應用、部署方面有什么問題,我覺得這都很正常的。敢于采用新的首發(fā)芯片的企業(yè),它都會遇到這些問題并且把它解決掉,都是工程師之間一些正常的討論、優(yōu)化、合作的一些過程。
我們從2021年的第一個量產(chǎn)項目就已經(jīng)這么做了,到今年也是如此。供應商跟我們的配合也非常好,最早在J3芯片的時候,應該是地平線,也是非常重視,把它的工程師都派到理想來,跟我們一起到測試廠加班合作,芯片問題他們就及時問題,算法問題我們及時解決。
在英偉達的配合里也是一樣的,有時候也會做到一起做芯片的一些部署、優(yōu)化等,我覺得這都是很正常的一些過程,不存在態(tài)度上的問題。
英偉達和地平線都是很好的芯片廠商,也都是我們很好的合作伙伴,我們也常年跟他們有很好的合作基礎。我們也知道,芯片的產(chǎn)生,它需要有很多輸入,我們也在新的芯片研發(fā)過程當中,我們也給他提供很多輸入,比如J3上的問題,它在J5上解決了;Orin-X問題,可能在Thor上解決了,Thor上問題可能也會在其他的方面去解決。我覺得這是一個正常的研發(fā)過程,主要還是看最終的應用情況。
第二個是云端模型是72B好還是32B好。其實我覺得各有各的好,你愿意用,你用15B,我也不攔著你。但是你是否能把模型訓練到的能力,蒸餾好了之后,不管用MoE的方式還是用稠密的方式,能落到自己的芯片上,做好優(yōu)化、量化的部署,并且轉(zhuǎn)換成用戶的實際價值。我覺得能做到這點,都是好的應用。
當然,對于我們理解來講,模型的參數(shù)量越大,訓練消耗的資源、消耗的東西就會越多,可能效率也會低一點。
另外,如果你還想把一個更大的模型蒸餾成一個非常小的模型,在蒸餾過程當中,它的能力損失也是可能存在的,這里面也很考驗各家工程師的量化優(yōu)化的一些部署能力,我覺得這是研發(fā)過程當中的一些過程。
最終,對于消費者來說,我們還是要看最終的產(chǎn)品體驗以及最終給用戶帶來的價值。
湛逸飛:剛才有提到云端大模型的參數(shù)量,其實也不完全只看參數(shù)量。同樣一個參數(shù)量的大模型,你給它什么數(shù)據(jù)也是非常重要的?,F(xiàn)在大模型行業(yè)甚至有一些大幾百B的,都是基于互聯(lián)網(wǎng)數(shù)據(jù)去抓取一些通用的數(shù)據(jù),而且互聯(lián)網(wǎng)上的數(shù)據(jù)污染現(xiàn)在已經(jīng)越來越嚴重。我們理想汽車做云端的大模型,我們是有基于自己的這些數(shù)據(jù)去做訓練能力,比如它在駕駛場景的理解上能力,是比那些通用的大模型的能力要強很多。當然,你不會拿我們的云端大模型去跟那些大模型去比編程,因為我們需要的是它對駕駛場景的理解能力。所以在模型參數(shù)的基礎上,給它訓了什么數(shù)據(jù)也是非常重要的一個事情。
問:我提兩個問題,第一個是剛才試乘的過程中,我們遇到一個場景,一個很窄的雙向道,我們右手邊有一個三輪車,我們跟它說向左變道,車其實是要跨對向車道,但是它沒有過去。我聽講解員跟我們說,以前你們是可以過去的,現(xiàn)在它不可以過去。所以我想聽一聽VLA司機在產(chǎn)品定義和用戶價值層面,你們經(jīng)過了哪些內(nèi)部討論和辨證,最終選擇了目前這個版本。第二個問題,大家對于VLA這個概念一直有一些討論。前段時間有人說VLA和好的模型,其實是兩個概念。其實大猩猩和老鼠,它們腦子里面都有一個VLA的Model,它是表明可以干這些事情的。但是好的模型,它可能更多是取決于數(shù)據(jù)和強化學習。背后的技術(shù)支撐,其實是強化學習。你們怎么看這個觀點?
詹錕:正常VLA它自己能理解這是雙向單車道,如果仔細看它的CoT(思維鏈)過程,我們之前給它的價值觀判斷或者價值觀對齊的數(shù)據(jù),就是讓它不要在雙向單車道去逆行。
之前說,VLA是一個更好的家庭司機,無論在什么情況下,我們還是會以安全、舒適、安心這樣的價值觀來對齊它。所以在這種情況下去跨逆行車道,我們是不建議的。但是如果需要微調(diào)出這樣的版本,在技術(shù)上肯定是可以的,但是我們還是希望能給到一個更安全、更安心的駕駛體驗。如果后面有機會我們會做一些更好的風格或者是嘗試,這是目前想給大家展現(xiàn)的一個VLA的價值觀和體驗。
我覺得剛剛說這個觀點還挺有意思的,VLA它是一種模型架構(gòu),它并不一定代表好的模型,這個觀點我是贊同的。首先,別說VLA了,每個人都說它有端到端,但不是每個端到端都開的很好。任何一個模型,它是什么樣的設計思路,只代表了它的想法,但不代表它能落地。所以VLA我們也是說它是全新的架構(gòu),但是要訓練出好的模型,還要下很大的功夫,我們需要更好的數(shù)據(jù)、算力、工程部署,才能做出來好的VLA。所以這肯定是一個充分不必要條件,我們希望是有好的模型來迭代它。
剛剛VLA架構(gòu)我們也說了很多它的優(yōu)勢,相對VA模型,或者端到端模型,VLA模型是有思考能力的,這是它不可否認的一個優(yōu)勢。如果不是用這種大語言模型的預訓練、后訓練的思路,是很難把這樣的知識融進去。所以我們也得承認,這樣的架構(gòu)才能帶來這樣的能力。
剛剛反復強調(diào)在VLA里面,L是非常重要的。我們也認為,自動駕駛想要往L4或者往更高的能力前進,L是一個必經(jīng)之路。現(xiàn)在無論是大語言模型,還是其他的模型,也都開始做端到端的L。我們在去年年底的時候,意識到這個過程,所以我們在大力的去發(fā)展L,而且目前也在VLA里面有很多應用。
問:問題一:在VLA的訓練中,在語言模型上是怎么避免大模型由于跟人類理解不同從而產(chǎn)生的反常識或者反人類習慣的生成指令,我們是如何解決的?問題二:在后續(xù)的強化訓練中,理想用一組24的案例去證明,那我們是以什么樣的標準決定這個case是訓練OK的?問題三:VLA在理想i8上首發(fā),同時也是i8的核心賣點之一,如果您作為智駕的締造者,您是怎么去看待用什么樣更好的方式,去跟司機溝通,相互信任的感情也好,或者吸引顧客愿意購買,去展示我們VLA的功能
詹錕:首先以現(xiàn)在的技術(shù)而言大模型已經(jīng)有了一些初步的共識方法和思路。
第一,我們需要對不好的數(shù)據(jù)做精細的清洗,清洗的越多,質(zhì)量就越好。
第二,合成數(shù)據(jù)。之前會有很多大語言模型會有幻覺,本質(zhì)上因為“大模型”對這個東西是不理解的或者沒見過的,在它這個領(lǐng)域之外回答問題。所以我們需要構(gòu)建很多數(shù)據(jù),甚至合成數(shù)據(jù),去讓它把這個領(lǐng)域理解到位,能把所有的知識能夠知道,甚至知道它什么不知道,這是它很重要的一個能力。
通過這兩個思路,其實大幅能降低語言模型的幻覺能力,甚至反常識的東西。
第三,超級對齊,讓它去更做到符合人類價值觀,比如剛剛那個例子,不能跨對向車道,就是類似的思路,這是第一個問題。
湛逸飛:首先只有完整的走過這種閉環(huán)仿真的整個流程玩家才能真正的去做強化訓練。
因為我們是在閉環(huán)仿真這個系統(tǒng)搭建起來的過程中積累了一套非常完整對車輛行為判斷的一套系統(tǒng),這套系統(tǒng)甚至還用了剛才提到的這些云端的32B模型,不僅是蒸餾完以后給車端用,在云端用這些大的模型去做推理、判斷這個車在仿真環(huán)境里的行為是否正確,同時我們從很多的維度,包括“安全、舒適、合規(guī)、效率”等,對車輛的行為做一個評價,總體來給出一個打分,我們也叫reward,目的是告訴他這個車在仿真環(huán)境里。
郎咸朋:第三個是i8首發(fā)的問題,i8首發(fā)我們當然也希望VLA會成為用戶購買i8的一個非常重要的因素,同時也會致力于首先讓之前用過理想智駕的老用戶有個非常好的體驗升級,其次也希望有更多沒有用過輔助駕駛、自動駕駛的用戶一上來就會對智駕有很好的感受和新鮮感。
剛才也提到了通過VLA技術(shù)架構(gòu)的一個能力升級,更多是想給用戶帶來實車體驗的升級,包括“舒適度、安全感”兩個最核心的指標,其次還有“可交互性、駕駛能力、技巧”等的提升。
它是一個綜合維度體驗的提升,你剛才提到思維鏈的一些展示,如果有人喜歡琢磨、喜歡研究VLA的過程是怎么回事的話,我們給他展示出來讓他可以去看一看,如果有的用戶對這個不是特別感興趣,只是講究開車時的安全體驗的,首先他站在之前端到端基礎上,一定會比端到端基礎要好的前提下再持續(xù)提升VLA的體驗。
所以,讓我們的用戶體驗會越來越好,而且我覺得它的這種體驗需要有一個過程,這個過程就是原來從10MPI到100MPI,現(xiàn)在從100MPI到1000MPI,有可能100到200你可能還沒有太大感覺,但我相信100到1000的感覺還是絕對可以體驗出來的,就像去年端到端和現(xiàn)在的端到端你肯定有很強的體驗。
問:問題一:今年下半年開始,各家車企,包括友商都會推進VLA,理想對于VLA這個技術(shù)的優(yōu)勢或技術(shù)壁壘是什么樣的?問題二:理想對VLA司機的定義是一個更好的家庭司機,一個安心的移動空間,未來VLA技術(shù)會不會拓展到別的產(chǎn)品線或一些服務過程中,撇開商品車之外的那些服務?
詹錕:第一個是我們的技術(shù)棧是有延續(xù)性的,并不是從之前的規(guī)則時代突然跳到VLA,那它肯定會有各種各樣的問題,比如有沒有把數(shù)據(jù)積累上來,有沒有那么好的訓練,有沒有那么好的仿真評測系統(tǒng)等等。我們現(xiàn)在做VLA其實是一個延續(xù)性的技術(shù)架構(gòu),甚至把原來的優(yōu)勢都利用起來,站在巨人的肩膀上繼續(xù)做。
第二,我們在RD預研方面其實投入非常多,VLA在自動駕駛領(lǐng)域是相對新的一個方向和領(lǐng)域,從去年年底到現(xiàn)在做了相當多預研,無論是在各個頂會上的論文,一個是我們在研發(fā)上面也專門立了TBP的項目,來推進VLA的技術(shù)探索,這塊其實是我們一直在堅持的“預研一代、研發(fā)一代、交付一代”的思路。所以從時間上來說,我們VLA起步相比其他友商或者競爭對手更有優(yōu)勢。
第三,我們相信VLA在未來會形成一個更大的、統(tǒng)一的架構(gòu)。我們也覺得VLA是在對物理世界AI落地來說,是非常好、非常一致性的前瞻技術(shù),并不僅僅是自動駕駛,可能是物理AI目前看到最合理的一個方向。
郎咸朋:補充兩個點,第一技術(shù)壁壘肯定是有,理想最核心的技術(shù)壁壘還是世界模型仿真的壁壘,這個壁壘是非常高的,別人很難短時間去復制出來。因為它的迭代速度得確保,且還得用實車去測試,所以是很難超越我們的。
第二,這肯定是可以拓展的,我們也成立了各種其他的機器人部門。VLA是一個很好的具身智能的技術(shù)框架,可能可以延續(xù)到其他方向。
問:OrinX后續(xù)版本的推送是同步的,還是會有差異;另外,OrinX去推VLA的時候,它的能力上限在你們內(nèi)部去考慮,后續(xù)多長時間它會和ThorU拉開差距,還是一直去保持同步的更新。
郎咸朋:我們是同步推送的,這次如果i8上線的時候,老用戶ADMax的車主,包括2022年買車的,只要你是OrinX的芯片或者Thor芯片,都會同步的推送。目前測試來看在能力上是沒有任何差異的,幀率上也沒有差異,我們做的工程優(yōu)化都非常好,都是10幀的。唯一的差異就是i8的底盤跟L9的底盤是有些差異,舒適度的體驗上可能是有一些不同。
后續(xù)的推送節(jié)奏也是同步的,就是Orin平臺和Thor平臺都是同步來推送。至于什么時候能拉開差異,我們現(xiàn)在肯定不會做這種差異化。但是隨著下一步的迭代,如果我們在INT4的量化上有一些突破,那個時候可能會有一定差異,但是現(xiàn)在談這個還為時尚早。
問:問題一:VLA截止目前沒有發(fā)布明確的規(guī)劃是因為商業(yè)的因素還是現(xiàn)在的效果還達不到你們的期待?問題二:今天體驗過程中感覺有一些很明顯的不足。比如有些障礙物,還沒辦法識別。我們今天體驗的這一版實車,在你們心里的評分大概是多少?要達到多少分,你們認為才可以大量的推送給用戶。
郎咸朋:我們一定會比友商早,我們一定是第一個。
關(guān)于第二個問題,我們內(nèi)部是有一個打分的機制,以仿真為例,現(xiàn)在是全面先對標OTA7.5,OTA7.5是我們在端到端上最后一個版本。這個版本的得分,內(nèi)部是有評分的,我們在推出第一版VLA的時候,包括大家今天試駕這版的VLA,它在我們內(nèi)部的打分已經(jīng)全面超越了端到端7.5、OTA7.5的。但是在一些小的分數(shù)上,可能有一些波動的。在整體的打分情況上,這個版本已經(jīng)超越了端到端一點點。
但是我們在真正推送用戶之前,我們會做到一個明顯的效果提升。今天大家試到的是我們特意讓大家先試一下我們在舒適度上的一些提升,如果大家比較熟悉車,肯定是能體驗出來的。接下來我們會在“安全、合規(guī)、導航、效率”等等方面,我們會在自己的一些維度上都會有較大幅度的提升。
讓熟悉我們車的人買i8一上車就會有非常大的體驗。讓沒用過輔助駕駛的人,使用輔助駕駛的時候,也會有很強的安全感和安心感,而且還有很強的舒適程度。但是內(nèi)部的評分標準,我們是自己有自己的評分標準。
問:提問一個關(guān)于數(shù)據(jù)的問題,在仿真加進來并且它發(fā)揮的作用越來越大之后,理想是怎么定義所謂的優(yōu)質(zhì)數(shù)據(jù)或者什么是不好的數(shù)據(jù),是不是說對模型迭代有促進作用的數(shù)據(jù)就叫優(yōu)質(zhì)數(shù)據(jù),但這個定義可能又太寬泛,理想有沒有一些可以量化的衡量標準。
湛逸飛:我們需要的數(shù)據(jù)用一個詞總結(jié)叫“老司機數(shù)據(jù)”。在訓練過程中,對數(shù)據(jù)的篩選。從去年端到端開始一直到現(xiàn)在,我們在云端有很多程序,甚至是云端的大模型,對這些數(shù)據(jù)進行檢查,來檢查他們是否符合我們所定義的“老司機”的標準。比如他在正常行駛的時候,不可以不居中。
舉一個例子,望京地區(qū)有一些右轉(zhuǎn)車道上有違停車道,我們到底需不需要這個車輛可以壓著實線繞行過去,如果不壓著實線繞行過去,你在望京地區(qū)可能就沒法完成右轉(zhuǎn)。所以我們對這些數(shù)據(jù)的理解,是花費了很大的功夫,在這個基礎上做了很多清洗,總量還是1000萬,但實際上這里面是在進行不斷替換的。
郎咸朋:我們有實驗模型之后,像cornercase以及一些困難場景的數(shù)據(jù),我們會通過合成數(shù)據(jù)來提供。
剛才你說是不是能提升性能數(shù)據(jù)就是好數(shù)據(jù),你剛才問了這樣一個觀點。從某種意義上說是,但是在端到端的時候就是這樣的。但是在端到端的時候,我們的數(shù)據(jù)更多是用來訓練端上的模型,但是到了強化學習之后,數(shù)據(jù)其實更大的作用是來訓世界模型,讓世界模型變的更加符合真實世界。
我們更多的訓練數(shù)據(jù)是來自于合成數(shù)據(jù)的。因為我覺得量上來說,或者類別來說,已經(jīng)足夠了。但是在細分的類別上,還是需要更多的用合成數(shù)據(jù)來補充我們的訓練。
各家做的也都不太一樣,5年前確實理想作為一個追隨者進入了自研的自動駕駛賽道,但我們對自動駕駛的思考并不是從2020年開始的,我們剛進理想的時候,當時李想面試的時候跟我聊,說你覺得最重要的是什么,比如想在自動駕駛做成功或者做到第一?
我說現(xiàn)在來看就是數(shù)據(jù),雖然說別的都很重要,但數(shù)據(jù)必須要提前開始準備,我們是從理想ONE開始做數(shù)據(jù)閉環(huán)的一些工作,當然那時候數(shù)據(jù)還比較少。給大家公布一個數(shù)字,其實2021年大家也覺得我們做的挺快的,雖然一些地平線芯片的加持,有一些可能當時做的ADAS也不是特別難,但有工作量很大,那時候我們訓模型的數(shù)據(jù)并不是買了個數(shù)據(jù)什么的,而是在2020年我們通過第一個完整的交付年,累計了1500萬左右的有效回傳數(shù)據(jù),我們確實做了很多數(shù)據(jù)標注,樣本是從這積累出來的。
從那開始慢慢往后做,這5年做下來,從去年端到端開始,業(yè)界或我們的競爭對手真正把理想自動駕駛當回事了,但他們?yōu)闀r已晚,因為這些能力建設不是一天兩天就能完全建立起來或者達到我們效果的,今年開始做VLA,我們是第一個提出并馬上是第一個交付的,很多人還在嘴上說,還在用端到端的方式去做VLA。
剛才我畫了一個圖想表達一個觀點如果還是沿著端到端思路去做所謂VLA的話,你的速度一定會變慢,不管是1000萬,還是2000萬,哪怕是1個億的Clips,首先你要訓1億個Clips需要多大的訓練算力,模型搞到多少先不說。另外,你的迭代速度會變慢。
如果你沒有很好世界模型、仿真環(huán)境,這個世界模型不是部署在車端的,是在云端的,云端的世界模型真的是幫助我們算法訓練的,模擬了一個真實的物理世界,我們現(xiàn)在是場景的生成,在結(jié)尾處我們給它秀了一段1公里×1公里的完整的區(qū)域仿真,如果再做的完善一點,我們最終的目標是讓我們算法在模擬世界里跑極品飛車,像《SimCity》,是模擬的一個城市環(huán)境。我們希望在我們生存的世界里是一個完整的Agent,是智能體,有車來撞它時它會躲,有什么人走過來它會讓什么的。所以我剛才秀了一段我們3D資產(chǎn),就是每一個里面的交通參與者,我們是精致到我都有他的3D模型,并且賦予他Agent的智能體,所以他在我的環(huán)境里不管是靜態(tài)的東西,還是動態(tài)的東西是一個完整的、真實的物理世界的“純仿真、純模擬”,如果達到這種程度,我把我的車,我把我的算法在這里面,就相當于他在這個環(huán)境下跑一天等于你在真實世界里跑好幾年的訓練速度,那時候會非???。
所以,我覺得VLA現(xiàn)在可能看起來很慢,就像去年端到端一樣,其實端到端已經(jīng)非??炝?,從2021年我們走到端到端走了3年多時間,其實還是站在巨人的肩膀上,如果再往前走,整個行業(yè)如果從規(guī)則算法走到端到端的話,我可以說走了10年左右,但是從端到端開始迭代會非常快,因為那時候整個工程、整個數(shù)據(jù)都會成熟起來,到VLA,我認為也是這樣一個速度,大家可能現(xiàn)在感覺VLA還沒有什么感覺,就是做了一個比端到端稍微好一點的一個感受,但一年之后你看到一個1000MPI的產(chǎn)品放在你面前的時候,相信大家都會覺得自動駕駛真的來了。我相信在這里面真正有技術(shù)、真正有能力、真正有責任心的企業(yè)一定會率先跑出來,我相信理想肯定是這里面第一個會走出來的。
問:提問一個關(guān)于移動空間的問題,我們今天體驗的版本MEGA移動空間和i8的行車是基于同樣的模型嗎?
郎咸朋:是同樣的模型。
問:問題一:關(guān)于仿真數(shù)據(jù),有報道說特斯拉為了拿到更優(yōu)質(zhì)的數(shù)據(jù)或者沒有受過污染的數(shù)據(jù),請了幾百個老司機天天在外面開,通過這個數(shù)據(jù)來訓練它的模型,而我們現(xiàn)在把大量的精力都放在了仿真上,我們有沒有類似這種讓專門的老司機給我們送“老司機數(shù)據(jù)”?問題二:用仿真學習的話,從第一輪訓練出一個實習司機,到第二輪就能訓練出一個老司機,這個過程大概要多久?是一瞬間就可以完成嗎?
湛逸飛:第一個問題,強化學習的過程其實就是每一輪每一輪的仿真,我們每一輪會給它一個打分,一個reward,這個reward會反向去改變模型里的一些參數(shù),這個模型參數(shù)改變以后,我們又會把它拿過來仿真,它再產(chǎn)生一個新的行為,這是一個循環(huán)交替的行為,至于什么時候結(jié)束,其實不確定,直到它通過了我們整個在仿真環(huán)境里的metrics,我們就會判斷這個場景的訓練完成了,它已經(jīng)學會了這個場景,所以并不是一個瞬間完成的,也不是一個固定長度的,還可以理解為跟這個場景的難度是相關(guān)的。
郎咸朋:第一個問題,我覺得可能是傳言、聽說之類的吧。但我覺得我們最好的老司機就是我們的車主,我們都是取之于民,用之于民的。
我們有很大的精力在我們車主里去挑選老司機的數(shù)據(jù),不是老司機開的時時刻刻都是老司機,也不是新手司機時時刻刻開的都不可用,主要看你怎么從沙里淘金的過程,我們的用戶數(shù)據(jù)是一個很大的金礦,但金礦里是摻著沙子的,看你怎么把這個金子淘出來,如果只讓一幫人給你掘金,可能太慢了,可能也不夠豐富。
問:大家都說多模態(tài)模型還沒有進入所謂的GPT時刻,無論是對世界的理解還是數(shù)據(jù)的訓練,雖然大家都模模糊糊看到一個方向,但具體怎么做沒有一個明確的解法,這時候你們需要做一個量產(chǎn)方案去推送到市場上,你覺得這個方案是一個足夠好的解法了嗎?以及它抵達所謂的GPT時刻還需要花多長時間?
詹錕:首先回答一下我們多模態(tài)之前說沒有達到GPT時刻,可能指的是VLA這種物理AI,而不是VLM,其實現(xiàn)在VLM已經(jīng)完全滿足一個非常創(chuàng)新的GPT時刻,如果針對物理AI,現(xiàn)在的VLA,特別是在機器人領(lǐng)域、具身領(lǐng)域可能并沒有達到GPT時刻,因為它沒有那么好的泛化能力,但在自動駕駛領(lǐng)域,其實VLA解決的是一個相對統(tǒng)一的駕駛范式,是有機會用這個方式做到一個GPT時刻的,我們也非常承認現(xiàn)在的VLA是第一版本,也是業(yè)界第一個往量產(chǎn)上要推的VLA版本,肯定會存在一些缺陷。
這個重大嘗試是想說我們想用VLA來探索一個新的路徑,它里面有很多嘗試的地方,有很多需要去落地的探索的點,不是說不能做到GPT時刻就一定不能去做量產(chǎn)落地,它有很多細節(jié),包括我們的評測、仿真去驗證它能不能做到量產(chǎn)落地,能不能給用戶“更好、更舒適、更安全”的體驗,做到以上三點就可以給用戶更好的交付。
GPT時刻更多指的是具有很強的通用性和泛化性,在這個過程可能隨著我們自動駕駛往空間機器人或往其它具身領(lǐng)域去拓展的時候會產(chǎn)生出更強的泛化能力或者更綜合的統(tǒng)籌能力,我們也會在落地以后隨著“用戶數(shù)據(jù)迭代、場景豐富、思維邏輯性越來越多、語音交互越來越多”逐漸往ChatGPT時刻遷移,不是一定要達到GPT時刻才能做一個自動駕駛模型,比如我們落地了VLA以后不能往ChatGPT去遷移,這是我們VLA落地第一個版本后逐漸會往“更豐富、更通用、更多樣化”能力去做的VLA模型。
像郎博說的到明年我們?nèi)绻搅?000MPI,可能會給用戶感覺真的到了VLA的ChatGPT的時刻。
(本文作者長期關(guān)注理想汽車,如對理想汽車有興趣,歡迎添加作者微信Hugh-wangruihao交流。)
小說:修仙界大佬回地球,資源在手,雙界稱霸路開啟!
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。