用純電車型殺入家用市場,理想是否擁有銷量新籌碼?
7月29日,理想旗下首款純電SUV車型i8上市,售價(jià)32.18萬至36.98萬元。從理想i8可以看到,空間魔法和舒適配置依然是理想汽車的產(chǎn)品亮點(diǎn)之一。
作為一款中大型純電SUV,理想i8采用了三排六座布局,無論是二排中間過道還是三排腿部空間,理想都做到了同級(jí)別優(yōu)秀水平。車內(nèi)舒適的背后,理想犧牲了后備箱空間,在車內(nèi)六座乘客滿員的情況下,后備箱似乎未能容納六人份行李。
相較其他純電品牌,理想i8在配置上也采用了不同思路。理想i8共推出三種配置,5C超充電池與雙腔空氣懸架全系標(biāo)配。對(duì)于追求舒適性、又存在里程焦慮的消費(fèi)群體而言,這是不錯(cuò)的吸引力。
不過,空間與配置并不是i8的最大看點(diǎn),理想似乎把重點(diǎn)押注在VLA大模型加持的輔助駕駛系統(tǒng)上。
VLA大模型會(huì)是理想的新增長空間嗎?
AI大模型在理想i8發(fā)布會(huì)上占據(jù)了很大篇幅,這家銷量領(lǐng)先的新勢力汽車品牌轉(zhuǎn)型AI公司意圖明顯。這其中,輔助駕駛的VLA大模型,是理想給未來押注的重要籌碼。
VLA是理想汽車提出的輔助駕駛新技術(shù)路線,相較目前行業(yè)主流的端到端路線,VLA的特點(diǎn)是讓汽車輔助駕駛實(shí)現(xiàn)自我升級(jí),借助AI大模型擴(kuò)大數(shù)據(jù)數(shù)量與多樣性,讓輔助駕駛系統(tǒng)學(xué)習(xí)更多障礙物樣本與交通規(guī)則等。
理想認(rèn)為,VLA能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時(shí),VLA擁有完整的腦系統(tǒng),具備語言、CoT(思維鏈)推理能力,既能看,也能理解并真正執(zhí)行動(dòng)作,符合人類的運(yùn)作方式。
從技術(shù)原理看,VLA的確有希望解決端到端路線的弊端:由于企業(yè)能收集的數(shù)據(jù)有限,端到端路線面對(duì)極限場景常常缺乏處理能力。
但不同技術(shù)路線有不同的挑戰(zhàn),VLA是輔助駕駛技術(shù)路線的無人區(qū),理想并沒有范本可以參考。無論是自研模型,還是數(shù)據(jù)訓(xùn)練,理想都需要自行摸索。所以理想如何研發(fā)VLA,VLA大模型的實(shí)際效果如何,汽車行業(yè)都在密切關(guān)注。
在理想i8發(fā)布會(huì)前一周,理想在北京組織了一場媒體溝通會(huì),自動(dòng)駕駛研發(fā)高級(jí)副總裁郎咸朋及其核心研發(fā)團(tuán)隊(duì)成員與36氪等媒體展開交流,關(guān)于VLA大模型的路徑與效果,理想汽車給出了全面解答。
以下是36氪等媒體和理想的對(duì)話,略經(jīng)改編:
問:VLA司機(jī)具備推理能力,并且表現(xiàn)更像人了,但是需要幾秒鐘的推理時(shí)間,請(qǐng)問在突發(fā)場景下,VLA司機(jī)是怎么進(jìn)行快思考的?
郎咸朋:您認(rèn)為思考過程很慢實(shí)際上是顯示的原因,本身推理速度是很快的,只是為了讓大家能夠看地更清楚我們摘取了一些重要的思考過程顯示出來。實(shí)際上現(xiàn)在VLA的推理幀率在10Hz左右,相比之前的VLM提升了三倍多,之前端到端的VLM部分是3Hz左右。
問:您剛才提到現(xiàn)在用MindGPT作為基座模型進(jìn)行訓(xùn)練,這比之前的模型好用嗎?
詹錕:我們自研的基座模型對(duì)部署VLA有很大作用,我們VLA是4B模型,比以前更大了,但推理速度更快了。核心原因是我們自研的基座架構(gòu),并不是業(yè)界任何一個(gè)開源模型都能達(dá)到這個(gè)效率。
之前在AITalk上提到過我們是MoE的0.4×8的架構(gòu),目前沒有任何一個(gè)架構(gòu)是這樣的,這是我們與基座團(tuán)隊(duì)共同研發(fā),專門對(duì)嵌入式芯片做了定制的MoE混合專家架構(gòu),在這個(gè)架構(gòu)上我們才能達(dá)到這樣的效果。
VLA的推理幀率在10Hz左右,每一幀都會(huì)經(jīng)過語言模型,這其中會(huì)有比較快的思考,也有會(huì)有比較長的思考,我們做了很多的優(yōu)化,把思考過程盡可能地能夠在車端推理出來。
問:您是如何判斷自動(dòng)駕駛落地的時(shí)間表?如何進(jìn)行商業(yè)變現(xiàn)?
郎咸朋:從技術(shù)層面看,我們認(rèn)為VLA模型是可以走向更高級(jí)別的自動(dòng)駕駛,但它現(xiàn)在處于起步階段,在這個(gè)技術(shù)周期里,起步階段VLA模型約等于端到端的上限,它還有很長一段路要走。但我認(rèn)為這個(gè)過程不會(huì)特別慢,因?yàn)槎说蕉藦?0MPI到現(xiàn)在100MPI只用了一年左右的時(shí)間,我相信VLA的迭代速度也會(huì)非??欤赡芪覀兠髂曜谶@兒的時(shí)候它已經(jīng)迭代到1000MPI了。
去年我和大家溝通過,今年端到端會(huì)迭代是被、當(dāng)時(shí)很多人也認(rèn)為不太可能,但我們的確做到了。所以VLA模型的迭代速度也會(huì)非???,但前提是要有完備的基礎(chǔ)能力,如算法、算力和數(shù)據(jù)等,并且要有工程能力的支撐才能夠?qū)崿F(xiàn)。尤其VLA的訓(xùn)練和端到端是不一樣的,它需要更多的和成熟和仿真環(huán)境來進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練,和之前只是單純依靠實(shí)車的數(shù)據(jù)模仿學(xué)習(xí)訓(xùn)練是完全不同的。
商業(yè)變現(xiàn)的影響因素非常多,最核心的是國家的法律政策。理想汽車也在積極參與國家相關(guān)政策法規(guī)的討論小組,從技術(shù)上來看L4級(jí)別的自動(dòng)駕駛落地是非??斓模珡纳虡I(yè)角度上看,還有很多問題需要考慮,比如保險(xiǎn),事故之后的賠償?shù)取?/p>
問:是否可以用更通俗的方式介紹一下VLA模型的難度在哪里?對(duì)企業(yè)的要求是什么?如果一個(gè)企業(yè)想要落地VLA模型會(huì)面臨哪些挑戰(zhàn)?
郎咸朋:曾經(jīng)也有很多人問過如果車企想做VLA模型是不是可以跳過前面的規(guī)則算法,跳過端到端階段,我認(rèn)為是不行的。雖然VLA的數(shù)據(jù)、算法等可能跟之前不太一樣,但是這些仍然是要建立在之前的基礎(chǔ)上的,如果沒有完整的通過實(shí)車采集的數(shù)據(jù)閉環(huán),是沒有數(shù)據(jù)能夠去訓(xùn)練世界模型的。
理想汽車之所以能夠落地VLA模型,是因?yàn)槲覀冇?2億數(shù)據(jù),只有在充分了解這些數(shù)據(jù)的基礎(chǔ)上,才能夠更好的生成數(shù)據(jù)。如果沒有這些數(shù)據(jù)基礎(chǔ),首先不能訓(xùn)練世界模型,其次也不清楚要生成什么樣的數(shù)據(jù)。同時(shí),基礎(chǔ)訓(xùn)練算力和推理算力的支撐需要大量資金和技術(shù)能力,如果沒有之前的積累是不能完成的。
問:目前有一些友商的車載算力已經(jīng)到2000TOPS了,這其中有一部分算力是提供給座艙的,請(qǐng)問未來理想汽車在車載算力上的規(guī)劃是怎樣的?有沒有標(biāo)準(zhǔn)?
郎咸朋:實(shí)際上算力和量化精度是相關(guān)的,也就是如何使用芯片。如果使用精度比較高的表達(dá)方式,等效算力或有效算力會(huì)低一些,但如果使用更好的量化精度,算力就會(huì)高。因?yàn)槲覀儾磺宄渌髽I(yè)的量化精度,所以很難評(píng)判。我們?cè)谲囕d算力上有更加長期的規(guī)劃,但現(xiàn)在不方便透露。
問:請(qǐng)問未來理想汽車把自動(dòng)駕駛能力推升的過程中對(duì)于算力儲(chǔ)備和卡的規(guī)劃是怎樣的?是否能夠介紹一下從規(guī)則算法時(shí)代到模仿學(xué)習(xí)階段,再到強(qiáng)化學(xué)習(xí)階段,在這個(gè)三個(gè)階段期間,理想汽車的算力增長節(jié)奏是怎樣的?
郎咸朋:算力增長過程與技術(shù)方案相關(guān)。在規(guī)則算法時(shí)代,訓(xùn)練的卡只是用于訓(xùn)練BEV模型和感知模型,相對(duì)數(shù)量較少,但在端到端時(shí)代,模型訓(xùn)練需要大量算力及訓(xùn)練卡,我們的訓(xùn)練卡從不到1EFLOPS增長到去年的10EFLOPS,增長了10倍左右。我們認(rèn)為訓(xùn)練算力是一方面,同時(shí)要增加推理算力。
問:智能駕駛存在一個(gè)“不可能三角”,也就是效率、舒適和安全三個(gè)目標(biāo)之間是互相制約的,目前階段可能難以同時(shí)實(shí)現(xiàn)。請(qǐng)問理想汽車的VLA目前在當(dāng)前階段最先優(yōu)化的指標(biāo)是哪一個(gè)?剛剛提及到MPI,是否可以理解為目前理想汽車最終的指標(biāo)是提升安全性以有效減少接管?
郎咸朋:MPI是我們衡量的指標(biāo)之一,還有一個(gè)指標(biāo)是MPA,也就是指發(fā)生事故的里程,現(xiàn)在是300萬公里左右。理想車主的人駕數(shù)據(jù)是60萬公里左右出一次事故,而在使用輔助駕駛功能的情況下是350到400萬公里發(fā)生一次事故。這個(gè)里程數(shù)據(jù)我們還會(huì)持續(xù)提升,我們的目標(biāo)是將MPA能提升到人類駕駛的10倍,也就是比人駕安全10倍,我們希望在輔助駕駛功能下能夠做到600萬公里才出一次事故,但這必須等到VLA模型提升之后才能做到。
針對(duì)MPI,我們也做過分析,可能一些安全風(fēng)險(xiǎn)問題會(huì)導(dǎo)致接管,但有時(shí)候舒適度不好也會(huì)導(dǎo)致接管,比如急剎、重剎等,因?yàn)椴⒉灰欢看味紩?huì)遇到安全風(fēng)險(xiǎn),但是如果駕駛舒適度不好,用戶依然不想用輔助駕駛功能。因?yàn)镸PA可以衡量安全性,在MPI方面,除了安全性之外,我們重點(diǎn)提升了行車舒適度,如果體驗(yàn)了理想i8的輔助駕駛功能,會(huì)體驗(yàn)到舒適度比之前的版本有很大提升。
效率是排在安全和舒適之后的,比如走錯(cuò)路,雖然效率有所損失,但我們不會(huì)通過一些危險(xiǎn)的動(dòng)作立刻糾正,還是要在安全和舒適的基礎(chǔ)上去追求效率。
問:剛提到今年實(shí)車測試是2萬公里,請(qǐng)問大幅減少實(shí)車測試的依據(jù)是什么?
郎咸朋:我們認(rèn)為實(shí)車測試有很多問題,成本是其中一方面,最主要的是我們?cè)跍y試驗(yàn)證一些場景時(shí)不可能完全復(fù)現(xiàn)發(fā)生問題時(shí)的場景。同時(shí),實(shí)車測試的效率太低了,在實(shí)車測試過程中要開過去之后再復(fù)測回來,我們現(xiàn)在的仿真效果完全可以媲美實(shí)車測試,現(xiàn)在的超級(jí)版本和理想i8的VLA版本中90%以上的測試都是仿真測試。
從去年端到端版本我們就已經(jīng)開始進(jìn)行仿真測試的驗(yàn)證,目前我們認(rèn)為它的可靠性和有效性都很高,所以我們以此替代了實(shí)車測試。但仍有一些測試是無法替代的,比如硬件耐久測試,但和性能相關(guān)的測試我們基本上會(huì)使用仿真測試替代,效果也非常好。
問:通常的做法是保持實(shí)測測試規(guī)模,大幅增加仿真測試數(shù)量,從理想汽車的實(shí)際反饋看,仿真測試的效果是比實(shí)車測試好很多對(duì)嗎?
郎咸朋:是的。仿真測試效果好,成本低,為什么不用仿真測試呢?我們保留實(shí)車測試是為了一些必要內(nèi)容,任何技術(shù)的提升一定伴隨著研發(fā)流程的變革,工業(yè)時(shí)代來臨后,刀耕火種的流程被機(jī)械化替代;信息時(shí)代后,網(wǎng)絡(luò)替代了大量工作。
在自動(dòng)駕駛時(shí)代也是一樣,端到端時(shí)代來臨后,我們進(jìn)入了使用AI技術(shù)做自動(dòng)駕駛的方式,從雇傭大量工程師、算法測試人員,到數(shù)據(jù)驅(qū)動(dòng),通過數(shù)據(jù)流程、數(shù)據(jù)平臺(tái)和算法迭代提升自動(dòng)駕駛能力。而進(jìn)入了VLA大模型時(shí)代,測試效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影響快速迭代的因素迭代掉,如果這其中仍有大量的實(shí)車和人工介入,速度是會(huì)降低的。
并不是我們一定要替代實(shí)車測試,而是這項(xiàng)技術(shù),這個(gè)方案本身就要求要使用仿真測試,如果不這樣做,并不是在做強(qiáng)化學(xué)習(xí),并不是在做VLA模型。
問:剛剛分享了端到端的瓶頸和一些無法解決的問題,VLA是當(dāng)時(shí)唯一考慮的路線嗎?還是有其它的選擇?
郎咸朋:我們并沒有很糾結(jié)方案。因?yàn)槲覀円恢北3种鴮?duì)前沿算法的預(yù)言和探索,做端到端的時(shí)候我們也在考慮下一代人工智能技術(shù),當(dāng)時(shí)業(yè)內(nèi)最有前途的就是VLA技術(shù)方案,但并不是只是用于自動(dòng)駕駛,它是具身智能領(lǐng)域的技術(shù)。
我們認(rèn)為它也是未來機(jī)器人領(lǐng)域的通用技術(shù)框架,其實(shí)自動(dòng)駕駛也是一種機(jī)器人,是自主行駛的機(jī)器人,如果未來我們希望做其它機(jī)器人,也都可以基于類似的VLA框架,所以我們經(jīng)過了長時(shí)間的調(diào)研和探索,制定了VLA的技術(shù)方向。
問:剛郎博提到如果量化精度高的話,可以在Thor芯片上實(shí)現(xiàn)翻倍的算力,為什么理想汽車能夠最大限度壓榨芯片的能力?基于這個(gè)能力,理想汽車是否還會(huì)自研智駕芯片?
詹錕:我們從去年開始用Orin芯片做大模型部署,當(dāng)時(shí)英偉達(dá)覺得這是不可能的,但我們認(rèn)為這是必須要要做的,和英偉達(dá)做了非常詳細(xì)的剖析和拆解,我們的工程團(tuán)隊(duì)、部署團(tuán)隊(duì)做了非常多的工作,包括我們魔改CUDA的底層,重寫PTX底層指令,才能實(shí)現(xiàn)現(xiàn)在的效果。
理想汽車自動(dòng)駕駛團(tuán)隊(duì)的工程部署能力是一以貫之的,從早期在地平線J3部署高速NOA,到在Orin芯片上部署大模型,再到現(xiàn)在在Thor芯片上部署VLA高頻快速的大模型。這些都是有工程積累和工程實(shí)踐的,很多技巧和分析方法,以及基礎(chǔ)設(shè)施的工具鏈都繼承下來了。
這其中很關(guān)鍵的一點(diǎn)是我們打磨細(xì)節(jié)的能力,芯片能否被壓榨最主要的事做底層分析,解決瓶頸熱點(diǎn)。剛剛郎博分享了很多我們解決的問題,大家會(huì)發(fā)現(xiàn)VLA從最初推理一幀需要500-600毫秒到最后實(shí)現(xiàn)10Hz,提升了近10倍的效率,這其中有非常多的細(xì)節(jié)都是我們?cè)谟龅絾栴}后拆解當(dāng)前芯片適配的算法,調(diào)整算子,讓算子和芯片目前的能力更匹配。大家會(huì)常用的推理模型會(huì)用FP16,我們把它降到FP8,性能做了非常的提升,同時(shí)FP4也是英偉達(dá)在最新的Blackwell架構(gòu)中非常推崇的,我們會(huì)進(jìn)一步把芯片算力壓榨出來。
郎咸朋:自研芯片的核心原因是作為一個(gè)專用芯片能夠針對(duì)自己的算法進(jìn)行特定地優(yōu)化處理,性價(jià)比和效率都會(huì)很高。現(xiàn)在我們依然使用Thor芯片是因?yàn)橛ミ_(dá)對(duì)一些新的算子支持是比較好的,算力也比較充足,在整體VLA迭代過程中依然有變化的可能性,所以我們依然在用Thor芯片。如果未來算法鎖定,為了更好的效率和成本,大家都會(huì)考慮自研芯片的。
問:您剛才講到從規(guī)則到端到端+VLM是比較大的技術(shù)路線革新,但VLA其實(shí)沒有顛覆端到端+VLM,所以是否可以理解成VLA是偏向于工程能力的創(chuàng)新?
詹錕:VLA不只是工程方面的創(chuàng)新,大家如果關(guān)注具身智能,會(huì)發(fā)現(xiàn)這波浪潮伴隨著大模型對(duì)物理世界的應(yīng)用,這本質(zhì)就是提出了一個(gè)VLA算法,我們的VLA模型就是想把具身智能的思想和路徑引用在自動(dòng)駕駛領(lǐng)域。我們是最早提出,也是最早開始實(shí)踐的。
VLA也是一種端到端,因?yàn)槎说蕉说谋举|(zhì)是場景輸入,軌跡輸出,VLA也是如此,但算法的創(chuàng)新是多了思考。端到端可以理解為VA,沒有Language,Language對(duì)應(yīng)的是思考和理解,我們?cè)赩LA中加入了這一部分,把機(jī)器人的范式統(tǒng)一,讓自動(dòng)駕駛也能成為機(jī)器人的一類,這是算法創(chuàng)新,不只是工程創(chuàng)新。
但對(duì)于自動(dòng)駕駛而言,很大的挑戰(zhàn)是必須要有工程創(chuàng)新。因?yàn)閂LA是一個(gè)大模型,大模型部署在邊緣端算力上是非常具有挑戰(zhàn)的。很多團(tuán)隊(duì)并不是認(rèn)為VLA不好,而是因?yàn)閂LA部署有困難,把它真正落地是非常具有挑戰(zhàn)性的事情,尤其是在邊緣端芯片算力不夠的情況下是不可能完成的,所以我們是在大算力芯片上才能部署。所以這不僅僅是工程創(chuàng)新,但的確需要工程部署大范圍優(yōu)化才能實(shí)現(xiàn)。
問:VLA大模型在車端部署的時(shí)候是否會(huì)有一些輕量化的版本,比如模型裁剪或蒸餾版本?如何在推理效率和模型之間做好平衡?
詹錕:在部署時(shí)的效率和蒸餾上我們做了非常多平衡。我們的基座模型是自研的8x0.4B的MOE模型,這是業(yè)界沒有的,我們?cè)谏钊敕治鲇ミ_(dá)芯片后,發(fā)現(xiàn)這個(gè)架構(gòu)非常適合它,推理速度快的同時(shí)模型容量大,能夠同時(shí)容納不同場景、不同能力的大模型,這是我們?cè)诩軜?gòu)上的選擇。
另外,我們是大模型蒸餾出來的,我們最早訓(xùn)練了一個(gè)32B的云端大模型,它容納了海量的知識(shí)和駕駛能力,我們把它做出的思考和推理流程蒸餾到3.2B的MoE模型上,配合Vision和Action,使用了Diffusion。我們用這樣的方法做了非常多的優(yōu)化。
從細(xì)節(jié)上來看,我們也針對(duì)Diffusion做了工程優(yōu)化,并不是直接使用標(biāo)準(zhǔn)Diffusion,而是進(jìn)行了推理的壓縮,可以理解為一種蒸餾。以前Diffusion可能要推理10步驟,我們使用了flowmatching流匹配只需要推理2步就可以了,這方面的壓縮也是導(dǎo)致我們真正能夠部署VLA的本質(zhì)原因。
問:我們?cè)跍y試時(shí)看到了,可以對(duì)VLA說前進(jìn)10米。您也提到了這個(gè)概念,大模型在訓(xùn)練數(shù)據(jù)中是沒有學(xué)習(xí)過這么具體的概念的,理想汽車是如何發(fā)現(xiàn)\了解背后機(jī)制的?另外,人類是否能信任大模型做出的判斷?
詹錕:首先,我們不會(huì)單純地讓模型學(xué)習(xí)向前走10m、12m這樣生硬的數(shù)據(jù),但是在海量的通識(shí)數(shù)據(jù)中,有很多對(duì)物理空間的理解。比如前方白車距離多少米,前方路沿和我有多少距離,而且現(xiàn)在大模型也已經(jīng)加入很多物理空間的知識(shí),包括現(xiàn)在的ChatGPT、千問都具備這樣的能力,把這些能力在大模型里學(xué)習(xí)之后,我們只需要在action中把它體現(xiàn)出來。
剛剛分享了五步訓(xùn)練法,第一步就是加入通識(shí)能力和物理世界的知識(shí),在第二步時(shí)相對(duì)進(jìn)行一些微調(diào),將這樣的能力和action結(jié)合,就能夠?qū)崿F(xiàn),這是端到端的學(xué)習(xí)思路就能做到的。其實(shí)有一些背后的機(jī)制和現(xiàn)在的大模型是非常一致。當(dāng)我們把海量數(shù)據(jù)喂給它以后,這些數(shù)據(jù)具備組合泛化能力,并不是教什么學(xué)什么,當(dāng)量級(jí)達(dá)到一定規(guī)模時(shí),會(huì)涌現(xiàn)出一些能力,包括行為,并不是說必須11m、12m、13m,分別教才行。它懂了數(shù)字,懂了米數(shù),當(dāng)你在給它一個(gè)新的東西,它就存在一種組合泛化的機(jī)制。
這是大模型理論研究非常多的,但目前這樣的機(jī)制是可以在各個(gè)領(lǐng)域進(jìn)行泛化應(yīng)用的。所以我們很多能力和知識(shí)就是各個(gè)學(xué)科交叉的融合,我們也非常關(guān)注現(xiàn)在大模型的進(jìn)展,隨時(shí)可以向自動(dòng)駕駛上遷移。
問:大語言模型可能缺乏長期記憶能力和長期規(guī)劃,在剛剛的VLA測試中會(huì)看到一些在某條路上開多少速度的能力,在這方面理想汽車做了怎樣的改進(jìn)?
詹錕:大家可以發(fā)現(xiàn),近一年,大模型和Agent的發(fā)展是非??斓?。大模型用到了很多tools能力,包括RAG能力,剛剛看到的記憶就是RAG能力。當(dāng)我們發(fā)出指令之后可以外掛在RAG中,當(dāng)下次到這里的時(shí)候可以很容易調(diào)度它,它能夠記得之前到這個(gè)地方的時(shí)候發(fā)出過這樣的指令,就能夠加到prompt中。我們會(huì)進(jìn)行prompt的微調(diào),本質(zhì)是把這些知識(shí)放入VLA輸入中,大模型會(huì)具備這樣的能力。
當(dāng)我們把大模型系統(tǒng)看做一個(gè)Agent,本質(zhì)是它是一個(gè)以大模型為中心構(gòu)建的系統(tǒng),這其中有tools,RAG外掛系統(tǒng)來增強(qiáng)它的記憶和規(guī)劃能力,讓他形成一個(gè)真正的完整的智能體,我們做了很多工作才實(shí)現(xiàn)了這樣的功能。
問:郎博提到物理世界中實(shí)車測試是無法100%復(fù)現(xiàn)場景的,在仿真測試過程中是怎樣做到100%復(fù)原的?為什么理想汽車可以做到?
湛逸飛:我們?cè)?024年還是進(jìn)行了150多萬公里的實(shí)車測試。實(shí)際上我們?cè)?024年就已經(jīng)具備了世界模型仿真能力,我們?cè)谟眠@150多萬公里的實(shí)車測試來驗(yàn)證仿真環(huán)境的可靠性。事實(shí)上,最初世界模型仿真復(fù)現(xiàn)率或真實(shí)性是存在問題的,但我們通過與實(shí)車測試數(shù)據(jù)對(duì)比,在過去一年里針對(duì)仿真測試中的漏洞或缺陷進(jìn)行了大量工程和算法優(yōu)化,讓仿真一致性達(dá)到了非常高的程度。
雖然并沒有達(dá)到100%,但準(zhǔn)確率也可以在99.9%以上。舉一個(gè)簡單的例子,在仿真環(huán)境中最開始紅綠燈的變化在200米外是看不清楚的,于是我們針對(duì)紅綠燈的視野模型仿真進(jìn)行了大量的優(yōu)化,包括對(duì)30°相機(jī)分辨率的提升。我們用過去一年的時(shí)間將仿真系統(tǒng)的可靠性提升到了很好的程度,才會(huì)放心地去使用這套系統(tǒng)。
問:近期理想汽車發(fā)布了OTA7.5版本,這次的重磅升級(jí)是超級(jí)對(duì)齊監(jiān)督模型的發(fā)布,這對(duì)VLA實(shí)現(xiàn)人類老司機(jī)體驗(yàn)的作用和意義是什么?
郎咸朋:OTA7.5版本的超級(jí)對(duì)齊做了兩件事,第一,對(duì)數(shù)據(jù)配比進(jìn)行調(diào)整,使得模型訓(xùn)練的數(shù)據(jù)質(zhì)量和數(shù)據(jù)覆蓋提升;第二,增加了后處理能力,比如法律法規(guī)類的規(guī)則,強(qiáng)制讓模型輸出符合法規(guī)或合規(guī)的規(guī)定,讓它更加符合人類駕駛習(xí)慣要求。
VLA很重要的意義是為我們提供了很多評(píng)測場景,剛剛提到我們?cè)谶^去一年的迭代過程中積累了大量用于仿真評(píng)測的場景,現(xiàn)在的VLA模型仿真得分已經(jīng)超越OTA7.5版本的得分,我們把OTA7.5版本超級(jí)對(duì)齊的一些場景用VLA的模型再去跑一遍,看它在這個(gè)場景里的通過率和得分率。
超級(jí)對(duì)齊里也用了很多仿真測試,在超級(jí)對(duì)齊之前我們還沒有特別大量地使用仿真環(huán)境進(jìn)行測試,在超級(jí)對(duì)齊中我們可以達(dá)到單天峰值30萬公里的仿真里程。
所以,它對(duì)VLA的意義就是它為VLA積攢了很多評(píng)測場景和數(shù)據(jù),假設(shè)其他團(tuán)隊(duì)在做VLA模型,單純?cè)u(píng)測就是一項(xiàng)挑戰(zhàn),需要積累很多的場景。我們?cè)赩LA模型中能夠快速迭代的原因是VLA評(píng)測就像之前的實(shí)車評(píng)測一樣,在實(shí)車評(píng)測時(shí)大家都有自己的方式和場景,我們的VLA仿真評(píng)測已經(jīng)在超級(jí)對(duì)齊里做好了基礎(chǔ),現(xiàn)在已經(jīng)有超過40多萬個(gè)場景評(píng)測了,我們還會(huì)持續(xù)補(bǔ)充,超級(jí)對(duì)齊對(duì)VLA的意義最重要的就是在評(píng)測方面。
問:郎博提到VLA要成為“更好的家庭司機(jī)”,那在駕駛風(fēng)格或“司機(jī)性格”的個(gè)性化定制方面,未來是否會(huì)有更多可能性?
郎咸朋:我們也在考慮給不同的車、不同的使用者跟你相類似的駕駛風(fēng)格的體驗(yàn),不會(huì)所有車都是一套駕駛風(fēng)格,因?yàn)閺?qiáng)化學(xué)習(xí)是有這個(gè)能力來支撐它這個(gè)車越開越像你的風(fēng)格或體驗(yàn),之前端到端可能還不具備這樣的能力。不是設(shè)定的你自己的路線、你自己駕駛的風(fēng)格會(huì)越開越像你的,我們也在考慮端上的強(qiáng)化訓(xùn)練。
問:在Thor的FP8格式下實(shí)現(xiàn)1000TOPS算力,而行業(yè)普遍采用FP16處理算子。如何做到將精度從FP16降至FP8時(shí)保持模型精度(不掉點(diǎn))?向FP4演進(jìn)時(shí)需突破哪些關(guān)鍵技術(shù)?Blackwell已支持FP4原生硬件,但I(xiàn)NT4如何處理?Orin-X等平臺(tái)缺乏FP4原生支持,如何平衡硬件兼容性與計(jì)算效率?FP4實(shí)現(xiàn)2000TOPS等效算力后,能否支撐類人感知的幀率(如3FPS)?關(guān)鍵瓶頸會(huì)出現(xiàn)在哪里?
詹錕:我先解釋一下,我們把數(shù)值精度,首先從FP16或者FP32、FP8和INT8這樣去縮減的。
首先這是業(yè)界比較共識(shí)的一個(gè)問題,在大模型領(lǐng)域,大家對(duì)數(shù)值精度的要求會(huì)降低,這也是為什么到LLM領(lǐng)域,大家看到DeepSeek開始推它的FP8,為什么以前不行?也是因?yàn)槟P蛥?shù)規(guī)模過大,對(duì)它的容錯(cuò)變低了,它通過更多的層,更多的數(shù)據(jù)容量,把之前的異常值降的越來越少,這是大模型一個(gè)特性,這也是為什么到VLM、VLA領(lǐng)域以后,大家會(huì)逐漸往低精度,更精細(xì)的計(jì)算密集型的算子上去靠近,這是很大一個(gè)變化。如果我們還用原來的方法,那是不太行的,它會(huì)要很高的FP32、FP16這樣的數(shù)值精度,那到VLM才能做這樣的事情。
另一個(gè),量化訓(xùn)練。傳統(tǒng)的訓(xùn)練一般都會(huì)拿FP32去做訓(xùn)練,所以拿出來的參數(shù)就是FP32的數(shù)值精度。那我們有一個(gè)訓(xùn)練過程叫QAT,就是在訓(xùn)練過程中,我把參數(shù)就把它變成INT8或FP8,這樣的過程中,我們?cè)谀P椭荒苡脭?shù)據(jù)精度去做模型訓(xùn)練迭代,這樣我們拿出來的模型就能適配模型的推理精度。
以往企業(yè)是很難做好的,是因?yàn)檫@個(gè)訓(xùn)練過程中會(huì)非常不穩(wěn)定,這里面會(huì)有大量的訓(xùn)練框架優(yōu)化,訓(xùn)練策略的優(yōu)化才能做??赡芪蚁饶肍P32把模型訓(xùn)的收斂了,我再拿一個(gè)QAT的方式,訓(xùn)練成FP8這樣的小數(shù)值精度。
另一個(gè)很重要的,我們還是做了大量的數(shù)據(jù)清洗。以往出現(xiàn)這種數(shù)據(jù)噪點(diǎn)還是因?yàn)橛信K數(shù)據(jù),這也是為什么剛剛說我們還是在1000萬上面做,但是我們這里面做了大量的數(shù)據(jù)清洗、數(shù)據(jù)儲(chǔ)備工作,把不好的數(shù)據(jù)去掉,這樣才能讓訓(xùn)練變得穩(wěn)定、變得收斂,這也是目前像大語言模型大家常規(guī)的迭代方向,把數(shù)據(jù)精度做的越來越精細(xì),把數(shù)據(jù)清洗的越來越干凈,它訓(xùn)練也會(huì)越來越收斂。
第一個(gè)方向是會(huì)往FP8、INT8方面做。另一個(gè),F(xiàn)P4,這也是像英偉達(dá)他們這些最先進(jìn)的芯片提出來的,我們能不能把算力再降1倍,原來是要8個(gè)字節(jié)才能算一個(gè)點(diǎn),我們變成4個(gè)。這里面很重要一點(diǎn),模型的數(shù)值參數(shù)范圍一定要夠小,我們訓(xùn)練要更加穩(wěn)定,每一次數(shù)據(jù)用量對(duì)待你的模型訓(xùn)練迭代都是有更高的要求,目前看我們是有機(jī)會(huì)做到這里的。
如果你想做FP4,所以你要在訓(xùn)練上花更多精力,做更多的數(shù)據(jù)迭代、數(shù)據(jù)清洗,才能往這方面做。目前我們也在做這樣的嘗試,很快就可以在把Thor的芯片壓榨出來。
回到Orin,由于硬件限制,確實(shí)沒辦法做FP8這樣的計(jì)算,但是它有INT8。所以我們?cè)贠rin上,現(xiàn)在也是用了INT4的量化,再加FP16和INT8的混合精度推理,逐漸把大模型在Orin上部署。再往后走,由于硬件的限制,我們不能在做更多的精度壓縮。但是我們會(huì)同樣把VLA這樣的模型體驗(yàn)放在Orin和Thor上同平臺(tái)。
問:到2000TOPS之后,幀率能不能跑到30幀去?
詹錕:目前來看我們?cè)诮^大部分場景10Hz,特別是城市,10Hz是夠用的。如果我們算力能用FP4,那肯定是能double20Hz,是可以做到。但是需不需要跑到30,這個(gè)我們得看情況,可能有人說特斯拉跑到30,我們了解到它也并不是完整的30Hz,它也有一些其他的方法做這樣的東西。那我們還是把反應(yīng)速度和體檢做上來,并不是追求一個(gè)簡單的數(shù)字。
問:VLA我們更多在做大腦的事情,但看感知的問題可能也不一定完全解決了,包括懂車帝這次測試可能也顯示出有些問題。想問一下我們?cè)谧鯲LA過程中,在感知方面還做了哪些工作,以及再往后走還有什么可以做的更好?
郎咸朋:還是要繼續(xù)提升技術(shù)能力,我們現(xiàn)在這邊正好有一個(gè)專門的技術(shù)能力提升的專項(xiàng),就是要提升感知,在VLA中,我們現(xiàn)在對(duì)感知有一個(gè)比較大的升級(jí),能看得更遠(yuǎn)、更精細(xì),比較典型的兩個(gè)例子是我們動(dòng)態(tài)物體從原來150擴(kuò)到了200米純視覺的范圍,OCC通用物體檢測從原來的80擴(kuò)到了125,這都是目前在VLA上做的更多技術(shù)能力提升,包括數(shù)據(jù)、包括推理性能的提升才能做到,目前我們確實(shí)會(huì)在基礎(chǔ)能力上做更多提升。
問:理想是國內(nèi)VLA模型最早落地的車企,肯定也是摸著石頭過河,在研發(fā)VLA過程中哪方面挑戰(zhàn)是最大的,或者花費(fèi)時(shí)間最長?在摸著石頭過河肯定有很多流程或什么被驗(yàn)證是錯(cuò)的,就踩過哪些坑?從端到端切換到VLA的時(shí)候,可能不僅僅是技術(shù)路線的切換,可能整個(gè)組織架構(gòu)也需要調(diào)整,理想在研發(fā)VLA組織架構(gòu)進(jìn)行了怎樣的調(diào)整?
郎咸朋:去年端到端需要一個(gè)數(shù)據(jù)驅(qū)動(dòng)流程,我們之前做得很好,到今年一定要做強(qiáng)化學(xué)習(xí)的流程,就必須要快速驗(yàn)證我們世界模型的可靠性、有效性,也需要快速搭建我們高效仿真環(huán)境。我們今年很多推理卡也需要大量的去購買、去部署等等,我覺得研發(fā)挑戰(zhàn)最大的除了技術(shù)本身之外,是伴隨技術(shù)迭代的研發(fā)流程改革。
端到端去年是180個(gè)人,今年VLA稍微多一點(diǎn),200多個(gè)人,其實(shí)并不是弄幾千人去做,我覺得不需要,我覺得做得最好的是特斯拉,永遠(yuǎn)都是那一兩百人,做的還都挺好的。
問:后續(xù)還有很多國內(nèi)友商也在跟進(jìn)VLA,理想在整個(gè)研發(fā)過程中,踩過最大的坑能給大家介紹一下嗎?
郎咸朋:我在之前很多會(huì)上或?qū)ν獾难葜v上也都提到過,你想做好人工智能必須做好你的算法、數(shù)據(jù)和算力。
我們第一個(gè)要突破的是數(shù)據(jù)問題,如果沒有數(shù)據(jù),其實(shí)你的算力、算法再好也訓(xùn)不出來,企業(yè)不可能空轉(zhuǎn),你必須有很好的數(shù)據(jù)。
我們一直認(rèn)知還是比較好的,小坑肯定有,比如算力儲(chǔ)備的多少,交付快點(diǎn)慢點(diǎn)等,小的工程細(xì)節(jié)、優(yōu)化,肯定各家都會(huì)遇到,我覺得遇到小坑其實(shí)沒有問題,但不要遇到大的判斷失誤,我覺得我們運(yùn)氣還是可以的。
詹錕:我補(bǔ)充一下,可能也不叫坑,是個(gè)經(jīng)驗(yàn),還是要相信AI的力量,就是要相信ScalingLaw??梢钥吹介_始郎博KN里面有一個(gè),我們之前是相信dataScalingLaw,其實(shí)我們看到了很好的效果,其實(shí)下一步就是現(xiàn)在的testtimesScalingLaw。當(dāng)我們能給更多的數(shù)據(jù)、更大的訓(xùn)練時(shí)長,它總能出更好的效果,我覺得這就是一個(gè)需要堅(jiān)信的或者AI界現(xiàn)在叫“thebitterlesson,苦澀的教訓(xùn)”,我們要堅(jiān)信這個(gè)地方。
問:問題一:在VLA的訓(xùn)練中,在語言模型上是怎么避免大模型由于跟人類理解不同從而產(chǎn)生的反常識(shí)或者反人類習(xí)慣的生成指令,我們是如何解決的?在后續(xù)的強(qiáng)化訓(xùn)練中,理想用一組24的案例去證明,那我們是以什么樣的標(biāo)準(zhǔn)決定這個(gè)case是訓(xùn)練OK的?VLA在理想i8上首發(fā),同時(shí)也是i8的核心賣點(diǎn)之一,如果您作為智駕的締造者,您是怎么去看待用什么樣更好的方式,去跟司機(jī)溝通,相互信任的感情也好,或者吸引顧客愿意購買,去展示我們VLA的功能
詹錕:首先以現(xiàn)在的技術(shù)而言大模型已經(jīng)有了一些初步的共識(shí)方法和思路。
第一,我們需要對(duì)不好的數(shù)據(jù)做精細(xì)的清洗,清洗的越多,質(zhì)量就越好。
第二,生成數(shù)據(jù)。之前會(huì)有很多大語言模型會(huì)有幻覺,本質(zhì)上因?yàn)椤按竽P汀睂?duì)這個(gè)東西是不理解的或者沒見過的,在它這個(gè)領(lǐng)域之外回答問題。所以我們需要構(gòu)建很多數(shù)據(jù),甚至生成數(shù)據(jù),去讓它把這個(gè)領(lǐng)域理解到位,能把所有的知識(shí)能夠知道,甚至知道它什么不知道,這是它很重要的一個(gè)能力。
通過這兩個(gè)思路,其實(shí)大幅能降低語言模型的幻覺能力,甚至反常識(shí)的東西。
第三,超級(jí)對(duì)齊,讓它去更做到符合人類價(jià)值觀,比如剛剛那個(gè)例子,不能跨對(duì)向車道,就是類似的思路,這是第一個(gè)問題。
湛逸飛:首先只有完整的走過這種閉環(huán)仿真的整個(gè)流程玩家才能真正的去做強(qiáng)化訓(xùn)練。
因?yàn)槲覀兪窃陂]環(huán)仿真這個(gè)系統(tǒng)搭建起來的過程中積累了一套非常完整對(duì)車輛行為判斷的一套系統(tǒng),這套系統(tǒng)甚至還用了剛才提到的這些云端的32B模型,不僅是蒸餾完以后給車端用,在云端用這些大的模型去做推理、判斷這個(gè)車在仿真環(huán)境里的行為是否正確,同時(shí)我們從很多的維度,包括“安全、舒適、合規(guī)、效率”等,對(duì)車輛的行為做一個(gè)評(píng)價(jià),總體來給出一個(gè)打分,我們也叫reward,目的是告訴他這個(gè)車在仿真環(huán)境里。
問:提問一個(gè)關(guān)于數(shù)據(jù)的問題,在仿真加進(jìn)來并且它發(fā)揮的作用越來越大之后,理想是怎么定義所謂的優(yōu)質(zhì)數(shù)據(jù)或者什么是不好的數(shù)據(jù),是不是說對(duì)模型迭代有促進(jìn)作用的數(shù)據(jù)就叫優(yōu)質(zhì)數(shù)據(jù),但這個(gè)定義可能又太寬泛,理想有沒有一些可以量化的衡量標(biāo)準(zhǔn)。
湛逸飛:我們需要的數(shù)據(jù)用一個(gè)詞總結(jié)叫“老司機(jī)數(shù)據(jù)”。在訓(xùn)練過程中,對(duì)數(shù)據(jù)的篩選。從去年端到端開始一直到現(xiàn)在,我們?cè)谠贫擞泻芏喑绦?,甚至是云端的大模型,?duì)這些數(shù)據(jù)進(jìn)行檢查,來檢查他們是否符合我們所定義的“老司機(jī)”的標(biāo)準(zhǔn)。比如他在正常行駛的時(shí)候,不可以不居中。
舉一個(gè)例子,望京地區(qū)有一些右轉(zhuǎn)車道上有違停車道,我們到底需不需要這個(gè)車輛可以壓著實(shí)線繞行過去,如果不壓著實(shí)線繞行過去,你在望京地區(qū)可能就沒法完成右轉(zhuǎn)。所以我們對(duì)這些數(shù)據(jù)的理解,是花費(fèi)了很大的功夫,在這個(gè)基礎(chǔ)上做了很多清洗,總量還是1000萬,但實(shí)際上這里面是在進(jìn)行不斷替換的。
郎咸朋:我們有實(shí)驗(yàn)?zāi)P椭?,像cornercase場景以及一些困難場景的數(shù)據(jù),我們會(huì)通過生成數(shù)據(jù)來提供。
剛才你說是不是能提升性能數(shù)據(jù)就是好數(shù)據(jù),你剛才問了這樣一個(gè)觀點(diǎn)。從某種意義上說是,但是在端到端的時(shí)候就是這樣的。但是在端到端的時(shí)候,我們的數(shù)據(jù)更多是用來訓(xùn)練端上的模型,但是到了強(qiáng)化學(xué)習(xí)之后,數(shù)據(jù)其實(shí)更大的作用是來訓(xùn)世界模型,讓世界模型變的更加符合真實(shí)世界。
我們更多的訓(xùn)練數(shù)據(jù)是來自于生成數(shù)據(jù)的。因?yàn)槲矣X得量上來說,或者類別來說,已經(jīng)足夠了。但是在細(xì)分的類別上,還是需要更多的用生成數(shù)據(jù)來補(bǔ)充我們的訓(xùn)練。
各家做的也都不太一樣,5年前確實(shí)理想作為一個(gè)追隨者進(jìn)入了自研的自動(dòng)駕駛賽道,但我們對(duì)自動(dòng)駕駛的思考并不是從2020年開始的,我們剛進(jìn)理想的時(shí)候,當(dāng)時(shí)李想面試的時(shí)候跟我聊,說你覺得最重要的是什么,比如想在自動(dòng)駕駛做成功或者做到第一?
我說現(xiàn)在來看就是數(shù)據(jù),雖然說別的都很重要,但數(shù)據(jù)必須要提前開始準(zhǔn)備,我們是從理想ONE開始做數(shù)據(jù)閉環(huán)的一些工作,當(dāng)然那時(shí)候數(shù)據(jù)還比較少。給大家公布一個(gè)數(shù)字,其實(shí)2021年大家也覺得我們做的挺快的,雖然一些地平線芯片的加持,有一些可能當(dāng)時(shí)做的ADAS也不是特別難,但有工作量很大,那時(shí)候我們訓(xùn)模型的數(shù)據(jù)并不是買了個(gè)數(shù)據(jù)什么的,而是在2020年我們通過第一個(gè)完整的交付年,累計(jì)了1500萬左右的有效回傳數(shù)據(jù),我們確實(shí)做了很多數(shù)據(jù)標(biāo)注,樣本是從這積累出來的。
從那開始慢慢往后做,這5年做下來,從去年端到端開始,業(yè)界或我們的競爭對(duì)手真正把理想自動(dòng)駕駛當(dāng)回事了,但他們?yōu)闀r(shí)已晚,因?yàn)檫@些能力建設(shè)不是一天兩天就能完全建立起來或者達(dá)到我們效果的,今年開始做VLA,我們是第一個(gè)提出并馬上是第一個(gè)交付的,很多人還在嘴上說,還在用端到端的方式去做VLA。
剛才我畫了一個(gè)圖想表達(dá)一個(gè)觀點(diǎn)如果還是沿著端到端思路去做所謂VLA的話,你的速度一定會(huì)變慢,不管是1000萬,還是2000萬,哪怕是1個(gè)億的Clips,首先你要訓(xùn)1億個(gè)Clips需要多大的訓(xùn)練算力,模型得搞到多少先不說。另外,你的迭代速度會(huì)變慢。
如果你沒有很好世界模型、仿真環(huán)境,這個(gè)世界模型不是部署在車端的,是在云端的,云端的世界模型真的是幫助我們算法訓(xùn)練的,模擬了一個(gè)真實(shí)的物理世界,我們現(xiàn)在是場景的生成,在結(jié)尾處我們給它秀了一段1公里×1公里的完整的區(qū)域仿真,如果再做的完善一點(diǎn),我們最終的目標(biāo)是讓我們算法在模擬世界里跑極品飛車,像《SimCity》,是模擬的一個(gè)城市環(huán)境。我們希望在我們生存的世界里是一個(gè)完整的Agent,是智能體,有車來撞它時(shí)它會(huì)躲,有什么人走過來它會(huì)讓什么的。
所以我剛才秀了一段我們3D資產(chǎn),就是每一個(gè)里面的交通參與者,我們是精致到我都有他的3D模型,并且賦予他Agent的智能體,所以他在我的環(huán)境里不管是靜態(tài)的東西,還是動(dòng)態(tài)的東西是一個(gè)完整的、真實(shí)的物理世界的“純仿真、純模擬”,如果達(dá)到這種程度,我把我的車,我把我的算法在這里面,就相當(dāng)于他在這個(gè)環(huán)境下跑一天等于你在真實(shí)世界里跑好幾年的訓(xùn)練速度,那時(shí)候會(huì)非???。
所以,我覺得VLA現(xiàn)在可能看起來很慢,就像去年端到端一樣,其實(shí)端到端已經(jīng)非常快了,從2021年我們走到端到端走了3年多時(shí)間,其實(shí)還是站在巨人的肩膀上,如果再往前走,整個(gè)行業(yè)如果從規(guī)則算法走到端到端的話,我可以說走了10年左右,但是從端到端開始迭代會(huì)非??欤?yàn)槟菚r(shí)候整個(gè)工程、整個(gè)數(shù)據(jù)都會(huì)成熟起來,到VLA,我認(rèn)為也是這樣一個(gè)速度,大家可能現(xiàn)在感覺VLA還沒有什么感覺,就是做了一個(gè)比端到端稍微好一點(diǎn)的一個(gè)感受。
但一年之后你看到一個(gè)1000MPI的產(chǎn)品放在你面前的時(shí)候,相信大家都會(huì)覺得自動(dòng)駕駛真的開來了。我相信在這里面真正有技術(shù)、真正有能力、真正有責(zé)任心的企業(yè)一定會(huì)率先跑出來,我相信理想肯定是這里面第一個(gè)會(huì)走出來的。
3本先婚后愛文:《替嫁寵妃》《高嫁》《嫁國舅》,日久生情!
《替嫁寵妃:皇上帶我玩宮斗》白月光男神x小仙女,兜兜轉(zhuǎn)轉(zhuǎn),是你就好
《替嫁寵妃》作者:歸去閑人 替嫁梗 先婚后愛 打臉真香
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。