用純電車型殺入家用市場,理想是否擁有銷量新籌碼?
7月29日,理想旗下首款純電SUV車型i8上市,售價32.18萬至36.98萬元。從理想i8可以看到,空間魔法和舒適配置依然是理想汽車的產品亮點之一。
作為一款中大型純電SUV,理想i8采用了三排六座布局,無論是二排中間過道還是三排腿部空間,理想都做到了同級別優(yōu)秀水平。車內舒適的背后,理想犧牲了后備箱空間,在車內六座乘客滿員的情況下,后備箱似乎未能容納六人份行李。
相較其他純電品牌,理想i8在配置上也采用了不同思路。理想i8共推出三種配置,5C超充電池與雙腔空氣懸架全系標配。對于追求舒適性、又存在里程焦慮的消費群體而言,這是不錯的吸引力。
不過,空間與配置并不是i8的最大看點,理想似乎把重點押注在VLA大模型加持的輔助駕駛系統(tǒng)上。
VLA大模型會是理想的新增長空間嗎?
AI大模型在理想i8發(fā)布會上占據了很大篇幅,這家銷量領先的新勢力汽車品牌轉型AI公司意圖明顯。這其中,輔助駕駛的VLA大模型,是理想給未來押注的重要籌碼。
VLA是理想汽車提出的輔助駕駛新技術路線,相較目前行業(yè)主流的端到端路線,VLA的特點是讓汽車輔助駕駛實現自我升級,借助AI大模型擴大數據數量與多樣性,讓輔助駕駛系統(tǒng)學習更多障礙物樣本與交通規(guī)則等。
理想認為,VLA能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統(tǒng),具備語言、CoT(思維鏈)推理能力,既能看,也能理解并真正執(zhí)行動作,符合人類的運作方式。
從技術原理看,VLA的確有希望解決端到端路線的弊端:由于企業(yè)能收集的數據有限,端到端路線面對極限場景常常缺乏處理能力。
但不同技術路線有不同的挑戰(zhàn),VLA是輔助駕駛技術路線的無人區(qū),理想并沒有范本可以參考。無論是自研模型,還是數據訓練,理想都需要自行摸索。所以理想如何研發(fā)VLA,VLA大模型的實際效果如何,汽車行業(yè)都在密切關注。
在理想i8發(fā)布會前一周,理想在北京組織了一場媒體溝通會,自動駕駛研發(fā)高級副總裁郎咸朋及其核心研發(fā)團隊成員與36氪等媒體展開交流,關于VLA大模型的路徑與效果,理想汽車給出了全面解答。
以下是36氪等媒體和理想的對話,略經改編:
問:VLA司機具備推理能力,并且表現更像人了,但是需要幾秒鐘的推理時間,請問在突發(fā)場景下,VLA司機是怎么進行快思考的?
郎咸朋:您認為思考過程很慢實際上是顯示的原因,本身推理速度是很快的,只是為了讓大家能夠看地更清楚我們摘取了一些重要的思考過程顯示出來。實際上現在VLA的推理幀率在10Hz左右,相比之前的VLM提升了三倍多,之前端到端的VLM部分是3Hz左右。
問:您剛才提到現在用MindGPT作為基座模型進行訓練,這比之前的模型好用嗎?
詹錕:我們自研的基座模型對部署VLA有很大作用,我們VLA是4B模型,比以前更大了,但推理速度更快了。核心原因是我們自研的基座架構,并不是業(yè)界任何一個開源模型都能達到這個效率。
之前在AITalk上提到過我們是MoE的0.4×8的架構,目前沒有任何一個架構是這樣的,這是我們與基座團隊共同研發(fā),專門對嵌入式芯片做了定制的MoE混合專家架構,在這個架構上我們才能達到這樣的效果。
VLA的推理幀率在10Hz左右,每一幀都會經過語言模型,這其中會有比較快的思考,也有會有比較長的思考,我們做了很多的優(yōu)化,把思考過程盡可能地能夠在車端推理出來。
問:您是如何判斷自動駕駛落地的時間表?如何進行商業(yè)變現?
郎咸朋:從技術層面看,我們認為VLA模型是可以走向更高級別的自動駕駛,但它現在處于起步階段,在這個技術周期里,起步階段VLA模型約等于端到端的上限,它還有很長一段路要走。但我認為這個過程不會特別慢,因為端到端從10MPI到現在100MPI只用了一年左右的時間,我相信VLA的迭代速度也會非??欤赡芪覀兠髂曜谶@兒的時候它已經迭代到1000MPI了。
去年我和大家溝通過,今年端到端會迭代是被、當時很多人也認為不太可能,但我們的確做到了。所以VLA模型的迭代速度也會非??欤疤崾且型陚涞幕A能力,如算法、算力和數據等,并且要有工程能力的支撐才能夠實現。尤其VLA的訓練和端到端是不一樣的,它需要更多的和成熟和仿真環(huán)境來進行強化學習的訓練,和之前只是單純依靠實車的數據模仿學習訓練是完全不同的。
商業(yè)變現的影響因素非常多,最核心的是國家的法律政策。理想汽車也在積極參與國家相關政策法規(guī)的討論小組,從技術上來看L4級別的自動駕駛落地是非??斓模珡纳虡I(yè)角度上看,還有很多問題需要考慮,比如保險,事故之后的賠償等。
問:是否可以用更通俗的方式介紹一下VLA模型的難度在哪里?對企業(yè)的要求是什么?如果一個企業(yè)想要落地VLA模型會面臨哪些挑戰(zhàn)?
郎咸朋:曾經也有很多人問過如果車企想做VLA模型是不是可以跳過前面的規(guī)則算法,跳過端到端階段,我認為是不行的。雖然VLA的數據、算法等可能跟之前不太一樣,但是這些仍然是要建立在之前的基礎上的,如果沒有完整的通過實車采集的數據閉環(huán),是沒有數據能夠去訓練世界模型的。
理想汽車之所以能夠落地VLA模型,是因為我們有12億數據,只有在充分了解這些數據的基礎上,才能夠更好的生成數據。如果沒有這些數據基礎,首先不能訓練世界模型,其次也不清楚要生成什么樣的數據。同時,基礎訓練算力和推理算力的支撐需要大量資金和技術能力,如果沒有之前的積累是不能完成的。
問:目前有一些友商的車載算力已經到2000TOPS了,這其中有一部分算力是提供給座艙的,請問未來理想汽車在車載算力上的規(guī)劃是怎樣的?有沒有標準?
郎咸朋:實際上算力和量化精度是相關的,也就是如何使用芯片。如果使用精度比較高的表達方式,等效算力或有效算力會低一些,但如果使用更好的量化精度,算力就會高。因為我們不清楚其它企業(yè)的量化精度,所以很難評判。我們在車載算力上有更加長期的規(guī)劃,但現在不方便透露。
問:請問未來理想汽車把自動駕駛能力推升的過程中對于算力儲備和卡的規(guī)劃是怎樣的?是否能夠介紹一下從規(guī)則算法時代到模仿學習階段,再到強化學習階段,在這個三個階段期間,理想汽車的算力增長節(jié)奏是怎樣的?
郎咸朋:算力增長過程與技術方案相關。在規(guī)則算法時代,訓練的卡只是用于訓練BEV模型和感知模型,相對數量較少,但在端到端時代,模型訓練需要大量算力及訓練卡,我們的訓練卡從不到1EFLOPS增長到去年的10EFLOPS,增長了10倍左右。我們認為訓練算力是一方面,同時要增加推理算力。
問:智能駕駛存在一個“不可能三角”,也就是效率、舒適和安全三個目標之間是互相制約的,目前階段可能難以同時實現。請問理想汽車的VLA目前在當前階段最先優(yōu)化的指標是哪一個?剛剛提及到MPI,是否可以理解為目前理想汽車最終的指標是提升安全性以有效減少接管?
郎咸朋:MPI是我們衡量的指標之一,還有一個指標是MPA,也就是指發(fā)生事故的里程,現在是300萬公里左右。理想車主的人駕數據是60萬公里左右出一次事故,而在使用輔助駕駛功能的情況下是350到400萬公里發(fā)生一次事故。這個里程數據我們還會持續(xù)提升,我們的目標是將MPA能提升到人類駕駛的10倍,也就是比人駕安全10倍,我們希望在輔助駕駛功能下能夠做到600萬公里才出一次事故,但這必須等到VLA模型提升之后才能做到。
針對MPI,我們也做過分析,可能一些安全風險問題會導致接管,但有時候舒適度不好也會導致接管,比如急剎、重剎等,因為并不一定每次都會遇到安全風險,但是如果駕駛舒適度不好,用戶依然不想用輔助駕駛功能。因為MPA可以衡量安全性,在MPI方面,除了安全性之外,我們重點提升了行車舒適度,如果體驗了理想i8的輔助駕駛功能,會體驗到舒適度比之前的版本有很大提升。
效率是排在安全和舒適之后的,比如走錯路,雖然效率有所損失,但我們不會通過一些危險的動作立刻糾正,還是要在安全和舒適的基礎上去追求效率。
問:剛提到今年實車測試是2萬公里,請問大幅減少實車測試的依據是什么?
郎咸朋:我們認為實車測試有很多問題,成本是其中一方面,最主要的是我們在測試驗證一些場景時不可能完全復現發(fā)生問題時的場景。同時,實車測試的效率太低了,在實車測試過程中要開過去之后再復測回來,我們現在的仿真效果完全可以媲美實車測試,現在的超級版本和理想i8的VLA版本中90%以上的測試都是仿真測試。
從去年端到端版本我們就已經開始進行仿真測試的驗證,目前我們認為它的可靠性和有效性都很高,所以我們以此替代了實車測試。但仍有一些測試是無法替代的,比如硬件耐久測試,但和性能相關的測試我們基本上會使用仿真測試替代,效果也非常好。
問:通常的做法是保持實測測試規(guī)模,大幅增加仿真測試數量,從理想汽車的實際反饋看,仿真測試的效果是比實車測試好很多對嗎?
郎咸朋:是的。仿真測試效果好,成本低,為什么不用仿真測試呢?我們保留實車測試是為了一些必要內容,任何技術的提升一定伴隨著研發(fā)流程的變革,工業(yè)時代來臨后,刀耕火種的流程被機械化替代;信息時代后,網絡替代了大量工作。
在自動駕駛時代也是一樣,端到端時代來臨后,我們進入了使用AI技術做自動駕駛的方式,從雇傭大量工程師、算法測試人員,到數據驅動,通過數據流程、數據平臺和算法迭代提升自動駕駛能力。而進入了VLA大模型時代,測試效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影響快速迭代的因素迭代掉,如果這其中仍有大量的實車和人工介入,速度是會降低的。
并不是我們一定要替代實車測試,而是這項技術,這個方案本身就要求要使用仿真測試,如果不這樣做,并不是在做強化學習,并不是在做VLA模型。
問:剛剛分享了端到端的瓶頸和一些無法解決的問題,VLA是當時唯一考慮的路線嗎?還是有其它的選擇?
郎咸朋:我們并沒有很糾結方案。因為我們一直保持著對前沿算法的預言和探索,做端到端的時候我們也在考慮下一代人工智能技術,當時業(yè)內最有前途的就是VLA技術方案,但并不是只是用于自動駕駛,它是具身智能領域的技術。
我們認為它也是未來機器人領域的通用技術框架,其實自動駕駛也是一種機器人,是自主行駛的機器人,如果未來我們希望做其它機器人,也都可以基于類似的VLA框架,所以我們經過了長時間的調研和探索,制定了VLA的技術方向。
問:剛郎博提到如果量化精度高的話,可以在Thor芯片上實現翻倍的算力,為什么理想汽車能夠最大限度壓榨芯片的能力?基于這個能力,理想汽車是否還會自研智駕芯片?
詹錕:我們從去年開始用Orin芯片做大模型部署,當時英偉達覺得這是不可能的,但我們認為這是必須要要做的,和英偉達做了非常詳細的剖析和拆解,我們的工程團隊、部署團隊做了非常多的工作,包括我們魔改CUDA的底層,重寫PTX底層指令,才能實現現在的效果。
理想汽車自動駕駛團隊的工程部署能力是一以貫之的,從早期在地平線J3部署高速NOA,到在Orin芯片上部署大模型,再到現在在Thor芯片上部署VLA高頻快速的大模型。這些都是有工程積累和工程實踐的,很多技巧和分析方法,以及基礎設施的工具鏈都繼承下來了。
這其中很關鍵的一點是我們打磨細節(jié)的能力,芯片能否被壓榨最主要的事做底層分析,解決瓶頸熱點。剛剛郎博分享了很多我們解決的問題,大家會發(fā)現VLA從最初推理一幀需要500-600毫秒到最后實現10Hz,提升了近10倍的效率,這其中有非常多的細節(jié)都是我們在遇到問題后拆解當前芯片適配的算法,調整算子,讓算子和芯片目前的能力更匹配。大家會常用的推理模型會用FP16,我們把它降到FP8,性能做了非常的提升,同時FP4也是英偉達在最新的Blackwell架構中非常推崇的,我們會進一步把芯片算力壓榨出來。
郎咸朋:自研芯片的核心原因是作為一個專用芯片能夠針對自己的算法進行特定地優(yōu)化處理,性價比和效率都會很高?,F在我們依然使用Thor芯片是因為英偉達對一些新的算子支持是比較好的,算力也比較充足,在整體VLA迭代過程中依然有變化的可能性,所以我們依然在用Thor芯片。如果未來算法鎖定,為了更好的效率和成本,大家都會考慮自研芯片的。
問:您剛才講到從規(guī)則到端到端+VLM是比較大的技術路線革新,但VLA其實沒有顛覆端到端+VLM,所以是否可以理解成VLA是偏向于工程能力的創(chuàng)新?
詹錕:VLA不只是工程方面的創(chuàng)新,大家如果關注具身智能,會發(fā)現這波浪潮伴隨著大模型對物理世界的應用,這本質就是提出了一個VLA算法,我們的VLA模型就是想把具身智能的思想和路徑引用在自動駕駛領域。我們是最早提出,也是最早開始實踐的。
VLA也是一種端到端,因為端到端的本質是場景輸入,軌跡輸出,VLA也是如此,但算法的創(chuàng)新是多了思考。端到端可以理解為VA,沒有Language,Language對應的是思考和理解,我們在VLA中加入了這一部分,把機器人的范式統(tǒng)一,讓自動駕駛也能成為機器人的一類,這是算法創(chuàng)新,不只是工程創(chuàng)新。
但對于自動駕駛而言,很大的挑戰(zhàn)是必須要有工程創(chuàng)新。因為VLA是一個大模型,大模型部署在邊緣端算力上是非常具有挑戰(zhàn)的。很多團隊并不是認為VLA不好,而是因為VLA部署有困難,把它真正落地是非常具有挑戰(zhàn)性的事情,尤其是在邊緣端芯片算力不夠的情況下是不可能完成的,所以我們是在大算力芯片上才能部署。所以這不僅僅是工程創(chuàng)新,但的確需要工程部署大范圍優(yōu)化才能實現。
問:VLA大模型在車端部署的時候是否會有一些輕量化的版本,比如模型裁剪或蒸餾版本?如何在推理效率和模型之間做好平衡?
詹錕:在部署時的效率和蒸餾上我們做了非常多平衡。我們的基座模型是自研的8x0.4B的MOE模型,這是業(yè)界沒有的,我們在深入分析英偉達芯片后,發(fā)現這個架構非常適合它,推理速度快的同時模型容量大,能夠同時容納不同場景、不同能力的大模型,這是我們在架構上的選擇。
另外,我們是大模型蒸餾出來的,我們最早訓練了一個32B的云端大模型,它容納了海量的知識和駕駛能力,我們把它做出的思考和推理流程蒸餾到3.2B的MoE模型上,配合Vision和Action,使用了Diffusion。我們用這樣的方法做了非常多的優(yōu)化。
從細節(jié)上來看,我們也針對Diffusion做了工程優(yōu)化,并不是直接使用標準Diffusion,而是進行了推理的壓縮,可以理解為一種蒸餾。以前Diffusion可能要推理10步驟,我們使用了flowmatching流匹配只需要推理2步就可以了,這方面的壓縮也是導致我們真正能夠部署VLA的本質原因。
問:我們在測試時看到了,可以對VLA說前進10米。您也提到了這個概念,大模型在訓練數據中是沒有學習過這么具體的概念的,理想汽車是如何發(fā)現\了解背后機制的?另外,人類是否能信任大模型做出的判斷?
詹錕:首先,我們不會單純地讓模型學習向前走10m、12m這樣生硬的數據,但是在海量的通識數據中,有很多對物理空間的理解。比如前方白車距離多少米,前方路沿和我有多少距離,而且現在大模型也已經加入很多物理空間的知識,包括現在的ChatGPT、千問都具備這樣的能力,把這些能力在大模型里學習之后,我們只需要在action中把它體現出來。
剛剛分享了五步訓練法,第一步就是加入通識能力和物理世界的知識,在第二步時相對進行一些微調,將這樣的能力和action結合,就能夠實現,這是端到端的學習思路就能做到的。其實有一些背后的機制和現在的大模型是非常一致。當我們把海量數據喂給它以后,這些數據具備組合泛化能力,并不是教什么學什么,當量級達到一定規(guī)模時,會涌現出一些能力,包括行為,并不是說必須11m、12m、13m,分別教才行。它懂了數字,懂了米數,當你在給它一個新的東西,它就存在一種組合泛化的機制。
這是大模型理論研究非常多的,但目前這樣的機制是可以在各個領域進行泛化應用的。所以我們很多能力和知識就是各個學科交叉的融合,我們也非常關注現在大模型的進展,隨時可以向自動駕駛上遷移。
問:大語言模型可能缺乏長期記憶能力和長期規(guī)劃,在剛剛的VLA測試中會看到一些在某條路上開多少速度的能力,在這方面理想汽車做了怎樣的改進?
詹錕:大家可以發(fā)現,近一年,大模型和Agent的發(fā)展是非常快的。大模型用到了很多tools能力,包括RAG能力,剛剛看到的記憶就是RAG能力。當我們發(fā)出指令之后可以外掛在RAG中,當下次到這里的時候可以很容易調度它,它能夠記得之前到這個地方的時候發(fā)出過這樣的指令,就能夠加到prompt中。我們會進行prompt的微調,本質是把這些知識放入VLA輸入中,大模型會具備這樣的能力。
當我們把大模型系統(tǒng)看做一個Agent,本質是它是一個以大模型為中心構建的系統(tǒng),這其中有tools,RAG外掛系統(tǒng)來增強它的記憶和規(guī)劃能力,讓他形成一個真正的完整的智能體,我們做了很多工作才實現了這樣的功能。
問:郎博提到物理世界中實車測試是無法100%復現場景的,在仿真測試過程中是怎樣做到100%復原的?為什么理想汽車可以做到?
湛逸飛:我們在2024年還是進行了150多萬公里的實車測試。實際上我們在2024年就已經具備了世界模型仿真能力,我們在用這150多萬公里的實車測試來驗證仿真環(huán)境的可靠性。事實上,最初世界模型仿真復現率或真實性是存在問題的,但我們通過與實車測試數據對比,在過去一年里針對仿真測試中的漏洞或缺陷進行了大量工程和算法優(yōu)化,讓仿真一致性達到了非常高的程度。
雖然并沒有達到100%,但準確率也可以在99.9%以上。舉一個簡單的例子,在仿真環(huán)境中最開始紅綠燈的變化在200米外是看不清楚的,于是我們針對紅綠燈的視野模型仿真進行了大量的優(yōu)化,包括對30°相機分辨率的提升。我們用過去一年的時間將仿真系統(tǒng)的可靠性提升到了很好的程度,才會放心地去使用這套系統(tǒng)。
問:近期理想汽車發(fā)布了OTA7.5版本,這次的重磅升級是超級對齊監(jiān)督模型的發(fā)布,這對VLA實現人類老司機體驗的作用和意義是什么?
郎咸朋:OTA7.5版本的超級對齊做了兩件事,第一,對數據配比進行調整,使得模型訓練的數據質量和數據覆蓋提升;第二,增加了后處理能力,比如法律法規(guī)類的規(guī)則,強制讓模型輸出符合法規(guī)或合規(guī)的規(guī)定,讓它更加符合人類駕駛習慣要求。
VLA很重要的意義是為我們提供了很多評測場景,剛剛提到我們在過去一年的迭代過程中積累了大量用于仿真評測的場景,現在的VLA模型仿真得分已經超越OTA7.5版本的得分,我們把OTA7.5版本超級對齊的一些場景用VLA的模型再去跑一遍,看它在這個場景里的通過率和得分率。
超級對齊里也用了很多仿真測試,在超級對齊之前我們還沒有特別大量地使用仿真環(huán)境進行測試,在超級對齊中我們可以達到單天峰值30萬公里的仿真里程。
所以,它對VLA的意義就是它為VLA積攢了很多評測場景和數據,假設其他團隊在做VLA模型,單純評測就是一項挑戰(zhàn),需要積累很多的場景。我們在VLA模型中能夠快速迭代的原因是VLA評測就像之前的實車評測一樣,在實車評測時大家都有自己的方式和場景,我們的VLA仿真評測已經在超級對齊里做好了基礎,現在已經有超過40多萬個場景評測了,我們還會持續(xù)補充,超級對齊對VLA的意義最重要的就是在評測方面。
問:郎博提到VLA要成為“更好的家庭司機”,那在駕駛風格或“司機性格”的個性化定制方面,未來是否會有更多可能性?
郎咸朋:我們也在考慮給不同的車、不同的使用者跟你相類似的駕駛風格的體驗,不會所有車都是一套駕駛風格,因為強化學習是有這個能力來支撐它這個車越開越像你的風格或體驗,之前端到端可能還不具備這樣的能力。不是設定的你自己的路線、你自己駕駛的風格會越開越像你的,我們也在考慮端上的強化訓練。
問:在Thor的FP8格式下實現1000TOPS算力,而行業(yè)普遍采用FP16處理算子。如何做到將精度從FP16降至FP8時保持模型精度(不掉點)?向FP4演進時需突破哪些關鍵技術?Blackwell已支持FP4原生硬件,但INT4如何處理?Orin-X等平臺缺乏FP4原生支持,如何平衡硬件兼容性與計算效率?FP4實現2000TOPS等效算力后,能否支撐類人感知的幀率(如3FPS)?關鍵瓶頸會出現在哪里?
詹錕:我先解釋一下,我們把數值精度,首先從FP16或者FP32、FP8和INT8這樣去縮減的。
首先這是業(yè)界比較共識的一個問題,在大模型領域,大家對數值精度的要求會降低,這也是為什么到LLM領域,大家看到DeepSeek開始推它的FP8,為什么以前不行?也是因為模型參數規(guī)模過大,對它的容錯變低了,它通過更多的層,更多的數據容量,把之前的異常值降的越來越少,這是大模型一個特性,這也是為什么到VLM、VLA領域以后,大家會逐漸往低精度,更精細的計算密集型的算子上去靠近,這是很大一個變化。如果我們還用原來的方法,那是不太行的,它會要很高的FP32、FP16這樣的數值精度,那到VLM才能做這樣的事情。
另一個,量化訓練。傳統(tǒng)的訓練一般都會拿FP32去做訓練,所以拿出來的參數就是FP32的數值精度。那我們有一個訓練過程叫QAT,就是在訓練過程中,我把參數就把它變成INT8或FP8,這樣的過程中,我們在模型只能用數據精度去做模型訓練迭代,這樣我們拿出來的模型就能適配模型的推理精度。
以往企業(yè)是很難做好的,是因為這個訓練過程中會非常不穩(wěn)定,這里面會有大量的訓練框架優(yōu)化,訓練策略的優(yōu)化才能做??赡芪蚁饶肍P32把模型訓的收斂了,我再拿一個QAT的方式,訓練成FP8這樣的小數值精度。
另一個很重要的,我們還是做了大量的數據清洗。以往出現這種數據噪點還是因為有臟數據,這也是為什么剛剛說我們還是在1000萬上面做,但是我們這里面做了大量的數據清洗、數據儲備工作,把不好的數據去掉,這樣才能讓訓練變得穩(wěn)定、變得收斂,這也是目前像大語言模型大家常規(guī)的迭代方向,把數據精度做的越來越精細,把數據清洗的越來越干凈,它訓練也會越來越收斂。
第一個方向是會往FP8、INT8方面做。另一個,FP4,這也是像英偉達他們這些最先進的芯片提出來的,我們能不能把算力再降1倍,原來是要8個字節(jié)才能算一個點,我們變成4個。這里面很重要一點,模型的數值參數范圍一定要夠小,我們訓練要更加穩(wěn)定,每一次數據用量對待你的模型訓練迭代都是有更高的要求,目前看我們是有機會做到這里的。
如果你想做FP4,所以你要在訓練上花更多精力,做更多的數據迭代、數據清洗,才能往這方面做。目前我們也在做這樣的嘗試,很快就可以在把Thor的芯片壓榨出來。
回到Orin,由于硬件限制,確實沒辦法做FP8這樣的計算,但是它有INT8。所以我們在Orin上,現在也是用了INT4的量化,再加FP16和INT8的混合精度推理,逐漸把大模型在Orin上部署。再往后走,由于硬件的限制,我們不能在做更多的精度壓縮。但是我們會同樣把VLA這樣的模型體驗放在Orin和Thor上同平臺。
問:到2000TOPS之后,幀率能不能跑到30幀去?
詹錕:目前來看我們在絕大部分場景10Hz,特別是城市,10Hz是夠用的。如果我們算力能用FP4,那肯定是能double20Hz,是可以做到。但是需不需要跑到30,這個我們得看情況,可能有人說特斯拉跑到30,我們了解到它也并不是完整的30Hz,它也有一些其他的方法做這樣的東西。那我們還是把反應速度和體檢做上來,并不是追求一個簡單的數字。
問:VLA我們更多在做大腦的事情,但看感知的問題可能也不一定完全解決了,包括懂車帝這次測試可能也顯示出有些問題。想問一下我們在做VLA過程中,在感知方面還做了哪些工作,以及再往后走還有什么可以做的更好?
郎咸朋:還是要繼續(xù)提升技術能力,我們現在這邊正好有一個專門的技術能力提升的專項,就是要提升感知,在VLA中,我們現在對感知有一個比較大的升級,能看得更遠、更精細,比較典型的兩個例子是我們動態(tài)物體從原來150擴到了200米純視覺的范圍,OCC通用物體檢測從原來的80擴到了125,這都是目前在VLA上做的更多技術能力提升,包括數據、包括推理性能的提升才能做到,目前我們確實會在基礎能力上做更多提升。
問:理想是國內VLA模型最早落地的車企,肯定也是摸著石頭過河,在研發(fā)VLA過程中哪方面挑戰(zhàn)是最大的,或者花費時間最長?在摸著石頭過河肯定有很多流程或什么被驗證是錯的,就踩過哪些坑?從端到端切換到VLA的時候,可能不僅僅是技術路線的切換,可能整個組織架構也需要調整,理想在研發(fā)VLA組織架構進行了怎樣的調整?
郎咸朋:去年端到端需要一個數據驅動流程,我們之前做得很好,到今年一定要做強化學習的流程,就必須要快速驗證我們世界模型的可靠性、有效性,也需要快速搭建我們高效仿真環(huán)境。我們今年很多推理卡也需要大量的去購買、去部署等等,我覺得研發(fā)挑戰(zhàn)最大的除了技術本身之外,是伴隨技術迭代的研發(fā)流程改革。
端到端去年是180個人,今年VLA稍微多一點,200多個人,其實并不是弄幾千人去做,我覺得不需要,我覺得做得最好的是特斯拉,永遠都是那一兩百人,做的還都挺好的。
問:后續(xù)還有很多國內友商也在跟進VLA,理想在整個研發(fā)過程中,踩過最大的坑能給大家介紹一下嗎?
郎咸朋:我在之前很多會上或對外的演講上也都提到過,你想做好人工智能必須做好你的算法、數據和算力。
我們第一個要突破的是數據問題,如果沒有數據,其實你的算力、算法再好也訓不出來,企業(yè)不可能空轉,你必須有很好的數據。
我們一直認知還是比較好的,小坑肯定有,比如算力儲備的多少,交付快點慢點等,小的工程細節(jié)、優(yōu)化,肯定各家都會遇到,我覺得遇到小坑其實沒有問題,但不要遇到大的判斷失誤,我覺得我們運氣還是可以的。
詹錕:我補充一下,可能也不叫坑,是個經驗,還是要相信AI的力量,就是要相信ScalingLaw??梢钥吹介_始郎博KN里面有一個,我們之前是相信dataScalingLaw,其實我們看到了很好的效果,其實下一步就是現在的testtimesScalingLaw。當我們能給更多的數據、更大的訓練時長,它總能出更好的效果,我覺得這就是一個需要堅信的或者AI界現在叫“thebitterlesson,苦澀的教訓”,我們要堅信這個地方。
問:問題一:在VLA的訓練中,在語言模型上是怎么避免大模型由于跟人類理解不同從而產生的反常識或者反人類習慣的生成指令,我們是如何解決的?在后續(xù)的強化訓練中,理想用一組24的案例去證明,那我們是以什么樣的標準決定這個case是訓練OK的?VLA在理想i8上首發(fā),同時也是i8的核心賣點之一,如果您作為智駕的締造者,您是怎么去看待用什么樣更好的方式,去跟司機溝通,相互信任的感情也好,或者吸引顧客愿意購買,去展示我們VLA的功能
詹錕:首先以現在的技術而言大模型已經有了一些初步的共識方法和思路。
第一,我們需要對不好的數據做精細的清洗,清洗的越多,質量就越好。
第二,生成數據。之前會有很多大語言模型會有幻覺,本質上因為“大模型”對這個東西是不理解的或者沒見過的,在它這個領域之外回答問題。所以我們需要構建很多數據,甚至生成數據,去讓它把這個領域理解到位,能把所有的知識能夠知道,甚至知道它什么不知道,這是它很重要的一個能力。
通過這兩個思路,其實大幅能降低語言模型的幻覺能力,甚至反常識的東西。
第三,超級對齊,讓它去更做到符合人類價值觀,比如剛剛那個例子,不能跨對向車道,就是類似的思路,這是第一個問題。
湛逸飛:首先只有完整的走過這種閉環(huán)仿真的整個流程玩家才能真正的去做強化訓練。
因為我們是在閉環(huán)仿真這個系統(tǒng)搭建起來的過程中積累了一套非常完整對車輛行為判斷的一套系統(tǒng),這套系統(tǒng)甚至還用了剛才提到的這些云端的32B模型,不僅是蒸餾完以后給車端用,在云端用這些大的模型去做推理、判斷這個車在仿真環(huán)境里的行為是否正確,同時我們從很多的維度,包括“安全、舒適、合規(guī)、效率”等,對車輛的行為做一個評價,總體來給出一個打分,我們也叫reward,目的是告訴他這個車在仿真環(huán)境里。
問:提問一個關于數據的問題,在仿真加進來并且它發(fā)揮的作用越來越大之后,理想是怎么定義所謂的優(yōu)質數據或者什么是不好的數據,是不是說對模型迭代有促進作用的數據就叫優(yōu)質數據,但這個定義可能又太寬泛,理想有沒有一些可以量化的衡量標準。
湛逸飛:我們需要的數據用一個詞總結叫“老司機數據”。在訓練過程中,對數據的篩選。從去年端到端開始一直到現在,我們在云端有很多程序,甚至是云端的大模型,對這些數據進行檢查,來檢查他們是否符合我們所定義的“老司機”的標準。比如他在正常行駛的時候,不可以不居中。
舉一個例子,望京地區(qū)有一些右轉車道上有違停車道,我們到底需不需要這個車輛可以壓著實線繞行過去,如果不壓著實線繞行過去,你在望京地區(qū)可能就沒法完成右轉。所以我們對這些數據的理解,是花費了很大的功夫,在這個基礎上做了很多清洗,總量還是1000萬,但實際上這里面是在進行不斷替換的。
郎咸朋:我們有實驗模型之后,像cornercase場景以及一些困難場景的數據,我們會通過生成數據來提供。
剛才你說是不是能提升性能數據就是好數據,你剛才問了這樣一個觀點。從某種意義上說是,但是在端到端的時候就是這樣的。但是在端到端的時候,我們的數據更多是用來訓練端上的模型,但是到了強化學習之后,數據其實更大的作用是來訓世界模型,讓世界模型變的更加符合真實世界。
我們更多的訓練數據是來自于生成數據的。因為我覺得量上來說,或者類別來說,已經足夠了。但是在細分的類別上,還是需要更多的用生成數據來補充我們的訓練。
各家做的也都不太一樣,5年前確實理想作為一個追隨者進入了自研的自動駕駛賽道,但我們對自動駕駛的思考并不是從2020年開始的,我們剛進理想的時候,當時李想面試的時候跟我聊,說你覺得最重要的是什么,比如想在自動駕駛做成功或者做到第一?
我說現在來看就是數據,雖然說別的都很重要,但數據必須要提前開始準備,我們是從理想ONE開始做數據閉環(huán)的一些工作,當然那時候數據還比較少。給大家公布一個數字,其實2021年大家也覺得我們做的挺快的,雖然一些地平線芯片的加持,有一些可能當時做的ADAS也不是特別難,但有工作量很大,那時候我們訓模型的數據并不是買了個數據什么的,而是在2020年我們通過第一個完整的交付年,累計了1500萬左右的有效回傳數據,我們確實做了很多數據標注,樣本是從這積累出來的。
從那開始慢慢往后做,這5年做下來,從去年端到端開始,業(yè)界或我們的競爭對手真正把理想自動駕駛當回事了,但他們?yōu)闀r已晚,因為這些能力建設不是一天兩天就能完全建立起來或者達到我們效果的,今年開始做VLA,我們是第一個提出并馬上是第一個交付的,很多人還在嘴上說,還在用端到端的方式去做VLA。
剛才我畫了一個圖想表達一個觀點如果還是沿著端到端思路去做所謂VLA的話,你的速度一定會變慢,不管是1000萬,還是2000萬,哪怕是1個億的Clips,首先你要訓1億個Clips需要多大的訓練算力,模型得搞到多少先不說。另外,你的迭代速度會變慢。
如果你沒有很好世界模型、仿真環(huán)境,這個世界模型不是部署在車端的,是在云端的,云端的世界模型真的是幫助我們算法訓練的,模擬了一個真實的物理世界,我們現在是場景的生成,在結尾處我們給它秀了一段1公里×1公里的完整的區(qū)域仿真,如果再做的完善一點,我們最終的目標是讓我們算法在模擬世界里跑極品飛車,像《SimCity》,是模擬的一個城市環(huán)境。我們希望在我們生存的世界里是一個完整的Agent,是智能體,有車來撞它時它會躲,有什么人走過來它會讓什么的。
所以我剛才秀了一段我們3D資產,就是每一個里面的交通參與者,我們是精致到我都有他的3D模型,并且賦予他Agent的智能體,所以他在我的環(huán)境里不管是靜態(tài)的東西,還是動態(tài)的東西是一個完整的、真實的物理世界的“純仿真、純模擬”,如果達到這種程度,我把我的車,我把我的算法在這里面,就相當于他在這個環(huán)境下跑一天等于你在真實世界里跑好幾年的訓練速度,那時候會非常快。
所以,我覺得VLA現在可能看起來很慢,就像去年端到端一樣,其實端到端已經非??炝耍瑥?021年我們走到端到端走了3年多時間,其實還是站在巨人的肩膀上,如果再往前走,整個行業(yè)如果從規(guī)則算法走到端到端的話,我可以說走了10年左右,但是從端到端開始迭代會非常快,因為那時候整個工程、整個數據都會成熟起來,到VLA,我認為也是這樣一個速度,大家可能現在感覺VLA還沒有什么感覺,就是做了一個比端到端稍微好一點的一個感受。
但一年之后你看到一個1000MPI的產品放在你面前的時候,相信大家都會覺得自動駕駛真的開來了。我相信在這里面真正有技術、真正有能力、真正有責任心的企業(yè)一定會率先跑出來,我相信理想肯定是這里面第一個會走出來的。
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。