陀傲安
“理想汽車已經(jīng)積累了12億公里的效數(shù)據(jù),云端算力規(guī)模已達(dá)13EFLOPS。”
作者丨王瑞昊
編輯丨田哲
7月29日,理想汽車發(fā)布首款純電SUV——理想i8,售價(jià)32.18萬至36.98萬元。這款六座家庭SUV被視為理想在純電賽道上“能否翻篇”的關(guān)鍵一步。
一位內(nèi)部員工告訴雷峰網(wǎng),理想i8的定價(jià)參考了理想L8,公司希望i8的市場成績至少要達(dá)到理想L8的水平,L8上市首月即交付5293輛。
不過,理想i8沒能實(shí)現(xiàn)上市即交付,而是要到8月20日。
雷峰網(wǎng)了解到,理想下一代智能輔助駕駛方案——VLA司機(jī)大模型會(huì)隨著i8同步交付,這或許是整體交付要等到8月20日的主要原因。
為了成功切換到VLA,理想汽車從去年開始預(yù)研,今年初開始以項(xiàng)目組的形式攻關(guān)工程化研發(fā),希望能首發(fā)搭載理想i8,成為i8的一個(gè)重要賣點(diǎn)。
盡管目前VLA還存在一些缺陷,比如在一些場景中的體驗(yàn)還不如端到端版本?!袄硐胧菢I(yè)界第一個(gè)量產(chǎn)VLA的車企,還存在一些缺陷,”理想汽車自動(dòng)駕駛研發(fā)高級副總裁郎咸朋說,“但在自動(dòng)駕駛領(lǐng)域,VLA解決的是一個(gè)相對統(tǒng)一的駕駛范式,有機(jī)會(huì)實(shí)現(xiàn)GPT時(shí)刻?!?/p>
從輕圖、無圖到端到端,再到現(xiàn)在的VLA,每一次變化,背后都伴隨著模型能力的提升與技術(shù)瓶頸的突破。
理想上一代方案“端到端+VLA”的原理是模仿學(xué)習(xí),用人類駕駛的數(shù)據(jù)訓(xùn)練模型,決定模型的性能是數(shù)據(jù)規(guī)模與數(shù)據(jù)質(zhì)量,數(shù)據(jù)越多,覆蓋的場景就越多;數(shù)據(jù)的質(zhì)量越好,訓(xùn)練出來的模型就越像老司機(jī)。
過去一年,理想在端到端的MPI(平均接管里程)上取得了明顯進(jìn)展。去年7月第一個(gè)無圖版本的MPI是十幾公里,隨著訓(xùn)練數(shù)據(jù)從百萬級擴(kuò)大到1000萬Clips(視頻片段),到今年初MPI提升到近100公里,7個(gè)月內(nèi)增長近10倍,進(jìn)展迅猛。
但理想汽車發(fā)現(xiàn),從1000萬Clips開始,模型性能的提升明顯放緩。簡單堆數(shù)據(jù)已難以拉動(dòng)模型進(jìn)步,有價(jià)值的訓(xùn)練樣本越來越稀缺,進(jìn)入“提分難”階段。就像考試,從不及格提升到八九十分很快,但再往上提5分、10分非常難。從3月到7月底近5個(gè)月,模型性能只提升了2倍左右,遠(yuǎn)低于此前速度,說明端到端模型已遇到數(shù)據(jù)質(zhì)量和訓(xùn)練效率的雙重瓶頸。
“本質(zhì)來看,端到端就像猴子開車一樣,這套模仿學(xué)習(xí)不具備邏輯思考能力?!崩上膛蠼忉屃硕说蕉擞龅狡款i的主要原因。
VLA的出現(xiàn)給了理想解決端到端瓶頸的一個(gè)全新思路。
VLA代表的是一種以強(qiáng)化學(xué)習(xí)為核心的新范式,不再依賴100%真實(shí)人類駕駛數(shù)據(jù)。因?yàn)槿祟悢?shù)據(jù)分布有限,多為白天、晴天、無事故等安全場景,缺乏訓(xùn)練所需的極端或危險(xiǎn)場景。
VLA通過生成式方法和仿真環(huán)境,主動(dòng)構(gòu)造稀缺數(shù)據(jù),并在仿真中反復(fù)試錯(cuò)迭代。其核心是仿真迭代效率,誰的仿真跑得快、場景全,誰的模型能力進(jìn)步就快,這與傳統(tǒng)“堆數(shù)據(jù)”的模仿學(xué)習(xí)路徑截然不同。
在強(qiáng)化學(xué)習(xí)的加持下,郎咸朋表示VLA具備思維能力、溝通能力、記憶能力、自主學(xué)習(xí)能力等四大核心能力,也即是“能思考、能溝通、能記憶、能自我提升”。
理想汽車得以在短時(shí)間內(nèi)推出VLA,前提是已經(jīng)在數(shù)據(jù)、算法、算力和工程等領(lǐng)域積累了足夠多的能力,比如截至到今年7月份,理想汽車已經(jīng)積累了12億公里的效數(shù)據(jù),云端算力規(guī)模已達(dá)13EFLOPS(2萬張H20等效訓(xùn)練卡,3萬張等效L20推理卡)。
“這些能力,不是誰都有,”郎咸朋說,“我們一定會(huì)比友商早,我們一定是第一個(gè)?!?/p>
以下為雷峰網(wǎng)等媒體與郎咸朋、理想汽車自動(dòng)駕駛高級算法專家詹錕、理想汽車自動(dòng)駕駛高級算法專家湛逸飛的對話實(shí)錄,略經(jīng)刪減:
問:VLA司機(jī)具備推理能力,并且表現(xiàn)更像人了,但是需要幾秒鐘的推理時(shí)間,請問在突發(fā)場景下,VLA司機(jī)是怎么進(jìn)行快思考的?
郎咸朋:您認(rèn)為思考過程很慢實(shí)際上是顯示的原因,本身推理速度是很快的,只是為了讓大家能夠看地更清楚我們摘取了一些重要的思考過程顯示出來。實(shí)際上現(xiàn)在VLA的推理幀率在10Hz左右,相比之前的VLM提升了三倍多,之前端到端的VLM部分是3Hz左右。
問:您剛才提到現(xiàn)在用MindGPT作為基座模型進(jìn)行訓(xùn)練,這比之前的模型好用嗎?
詹錕:我們自研的基座模型對部署VLA有很大作用,我們VLA是4B模型,比以前更大了,但推理速度更快了。核心原因是我們自研的基座架構(gòu),并不是業(yè)界任何一個(gè)開源模型都能達(dá)到這個(gè)效率。之前在AITalk上提到過我們是MoE的0.4×8的架構(gòu),目前沒有任何一個(gè)架構(gòu)是這樣的,這是我們與基座團(tuán)隊(duì)共同研發(fā),專門對嵌入式芯片做了定制的MoE混合專家架構(gòu),在這個(gè)架構(gòu)上我們才能達(dá)到這樣的效果。
VLA的推理幀率在10Hz左右,每一幀都會(huì)經(jīng)過語言模型,這其中會(huì)有比較快的思考,也有會(huì)有比較長的思考,我們做了很多的優(yōu)化,把思考過程盡可能地能夠在車端推理出來。
問:是否可以用更通俗的方式介紹一下VLA模型的難度在哪里?對企業(yè)的要求是什么?如果一個(gè)企業(yè)想要落地VLA模型會(huì)面臨哪些挑戰(zhàn)?
郎咸朋:曾經(jīng)也有很多人問過如果車企想做VLA模型是不是可以跳過前面的規(guī)則算法、端到端階段,我認(rèn)為是不行的。
雖然VLA的數(shù)據(jù)、算法等可能跟之前不太一樣,但是這些仍然是要建立在之前的基礎(chǔ)上的,如果沒有完整地通過實(shí)車采集的數(shù)據(jù)閉環(huán),是沒有數(shù)據(jù)去訓(xùn)練世界模型的。
理想汽車之所以能夠落地VLA模型,是因?yàn)槲覀冇?2億數(shù)據(jù),只有在充分了解這些數(shù)據(jù)的基礎(chǔ)上,才能夠更好地生成數(shù)據(jù)。如果沒有這些數(shù)據(jù)基礎(chǔ),首先不能訓(xùn)練世界模型,其次也不清楚要生成什么樣的數(shù)據(jù)。同時(shí),基礎(chǔ)訓(xùn)練算力和推理算力需要大量資金和技術(shù)能力的支撐,如果沒有之前的積累是不能完成的。
問:請問未來理想汽車提升自動(dòng)駕駛能力的過程中,對于算力儲(chǔ)備和卡的規(guī)劃是怎樣的?是否能夠介紹一下從規(guī)則算法時(shí)代到模仿學(xué)習(xí)階段,再到強(qiáng)化學(xué)習(xí)階段,在這三個(gè)階段期間,理想汽車的算力增長節(jié)奏是怎樣的?
郎咸朋:算力增長過程與技術(shù)方案相關(guān)。在規(guī)則算法時(shí)代,訓(xùn)練的卡只是用于訓(xùn)練BEV模型和感知模型,相對數(shù)量較少,但在端到端時(shí)代,模型訓(xùn)練需要大量算力及訓(xùn)練卡,我們的訓(xùn)練卡從不到1EFLOPS增長到去年的10EFLOPS,增長了10倍左右。我們認(rèn)為訓(xùn)練算力是一方面,同時(shí)要增加推理算力。
問:智能駕駛存在一個(gè)“不可能三角”,也就是效率、舒適和安全三個(gè)目標(biāo)之間是互相制約的,目前階段可能難以同時(shí)實(shí)現(xiàn)。請問理想汽車的VLA目前在當(dāng)前階段最先優(yōu)化的指標(biāo)是哪一個(gè)?剛剛提及到MPI,是否可以理解為目前理想汽車最終的指標(biāo)是提升安全性以有效減少接管?
郎咸朋:MPI是我們衡量的指標(biāo)之一,還有一個(gè)指標(biāo)是MPA,也就是指發(fā)生事故的里程,現(xiàn)在是300萬公里左右。理想車主的人駕數(shù)據(jù)是60萬公里左右出一次事故,而在使用輔助駕駛功能的情況下是350到400萬公里發(fā)生一次事故。這個(gè)里程數(shù)據(jù)我們還會(huì)持續(xù)提升,我們的目標(biāo)是將MPA能提升到人類駕駛的10倍,也就是比人駕安全10倍,我們希望在輔助駕駛功能下能夠做到600萬公里才出一次事故,但這必須等到VLA模型提升之后才能做到。
針對MPI,我們也做過分析,可能一些安全風(fēng)險(xiǎn)問題會(huì)導(dǎo)致接管,但有時(shí)候舒適度不好也會(huì)導(dǎo)致接管,比如急剎、重剎等,因?yàn)椴⒉灰欢看味紩?huì)遇到安全風(fēng)險(xiǎn),但是如果駕駛舒適度不好,用戶依然不想用輔助駕駛功能。因?yàn)镸PA可以衡量安全性,在MPI方面,除了安全性之外,我們重點(diǎn)提升了行車舒適度,如果體驗(yàn)了理想i8的輔助駕駛功能,會(huì)體驗(yàn)到舒適度比之前的版本有很大提升。
效率是排在安全和舒適之后的,比如走錯(cuò)路,雖然效率有所損失,但我們不會(huì)通過一些危險(xiǎn)的動(dòng)作立刻糾正,還是要在安全和舒適的基礎(chǔ)上去追求效率。
問:剛提到今年實(shí)車測試是2萬公里,請問大幅減少實(shí)車測試的依據(jù)是什么?
郎咸朋:我們認(rèn)為實(shí)車測試有很多問題,成本是其中一方面,最主要的是我們在測試驗(yàn)證一些場景時(shí)不可能完全復(fù)現(xiàn)發(fā)生問題時(shí)的場景。同時(shí),實(shí)車測試的效率太低了,在實(shí)車測試過程中要開過去之后再復(fù)測回來,我們現(xiàn)在的仿真效果完全可以媲美實(shí)車測試,現(xiàn)在的超級版本和理想i8的VLA版本中90%以上的測試都是仿真測試。
從去年端到端版本我們就已經(jīng)開始進(jìn)行仿真測試的驗(yàn)證,目前我們認(rèn)為它的可靠性和有效性都很高,所以我們以此替代了實(shí)車測試。但仍有一些測試是無法替代的,比如硬件耐久測試,但和性能相關(guān)的測試我們基本上會(huì)使用仿真測試替代,效果也非常好。
問:通常的做法是保持實(shí)車測試規(guī)模,大幅增加仿真測試數(shù)量,從理想汽車的實(shí)際反饋看,仿真測試的效果是比實(shí)車測試好很多對嗎?
郎咸朋:是的。仿真測試效果好,成本低,為什么不用仿真測試呢?我們保留實(shí)車測試是為了一些必要內(nèi)容,任何技術(shù)的提升一定伴隨著研發(fā)流程的變革,工業(yè)時(shí)代來臨后,刀耕火種的流程被機(jī)械化替代;信息時(shí)代后,網(wǎng)絡(luò)替代了大量工作。在自動(dòng)駕駛時(shí)代也是一樣,端到端時(shí)代來臨后,我們進(jìn)入了使用AI技術(shù)做自動(dòng)駕駛的方式,從雇傭大量工程師、算法測試人員,到數(shù)據(jù)驅(qū)動(dòng),通過數(shù)據(jù)流程、數(shù)據(jù)平臺(tái)和算法迭代提升自動(dòng)駕駛能力。而進(jìn)入了VLA大模型時(shí)代,測試效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影響快速迭代的因素迭代掉,如果這其中仍有大量的實(shí)車和人工介入,速度是會(huì)降低的。并不是我們一定要替代實(shí)車測試,而是這項(xiàng)技術(shù),這個(gè)方案本身就要求要使用仿真測試,如果不這樣做,并不是在做強(qiáng)化學(xué)習(xí),并不是在做VLA模型。
問:剛剛分享了端到端的瓶頸和一些無法解決的問題,VLA是當(dāng)時(shí)唯一考慮的路線嗎?還是有其它的選擇?
郎咸朋:我們并沒有很糾結(jié)方案。因?yàn)槲覀円恢北3种鴮η把厮惴ǖ念A(yù)言和探索,做端到端的時(shí)候我們也在考慮下一代人工智能技術(shù),當(dāng)時(shí)業(yè)內(nèi)最有前途的就是VLA技術(shù)方案,但并不是只是用于自動(dòng)駕駛,它是具身智能領(lǐng)域的技術(shù)。我們認(rèn)為它也是未來機(jī)器人領(lǐng)域的通用技術(shù)框架,其實(shí)自動(dòng)駕駛也是一種機(jī)器人,是自主行駛的機(jī)器人,如果未來我們希望做其它機(jī)器人,也都可以基于類似的VLA框架,所以我們經(jīng)過了長時(shí)間的調(diào)研和探索,制定了VLA的技術(shù)方向。
問:剛郎博提到如果量化精度高的話,可以在Thor芯片上實(shí)現(xiàn)翻倍的算力,為什么理想汽車能夠最大限度壓榨芯片的能力?基于這個(gè)能力,理想汽車是否還會(huì)自研智駕芯片?
詹錕:我們從去年開始用Orin芯片做大模型部署,當(dāng)時(shí)英偉達(dá)覺得這是不可能的,但我們認(rèn)為這是必須要做的,和英偉達(dá)做了非常詳細(xì)的剖析和拆解,我們的工程團(tuán)隊(duì)、部署團(tuán)隊(duì)做了非常多的工作,包括我們魔改CUDA的底層,重寫PTX底層指令,才能實(shí)現(xiàn)現(xiàn)在的效果。
理想汽車自動(dòng)駕駛團(tuán)隊(duì)的工程部署能力是一以貫之的,從早期在地平線J3部署高速NOA,到在Orin芯片上部署大模型,再到現(xiàn)在在Thor芯片上部署VLA高頻快速的大模型。這些都是有工程積累和工程實(shí)踐的,很多技巧和分析方法,以及基礎(chǔ)設(shè)施的工具鏈都繼承下來了。這其中很關(guān)鍵的一點(diǎn)是我們打磨細(xì)節(jié)的能力,芯片能否被壓榨最主要的事做底層分析,解決瓶頸熱點(diǎn)。剛剛郎博分享了很多我們解決的問題,大家會(huì)發(fā)現(xiàn)VLA從最初推理一幀需要500-600毫秒到最后實(shí)現(xiàn)10Hz,提升了近10倍的效率,這其中有非常多的細(xì)節(jié)都是我們在遇到問題后拆解當(dāng)前芯片適配的算法,調(diào)整算子,讓算子和芯片的能力更匹配。大家常用的推理模型會(huì)用FP16,我們把它降到FP8,性能做了非常的提升,同時(shí)FP4也是英偉達(dá)在最新的Blackwell架構(gòu)中非常推崇的,我們會(huì)進(jìn)一步把芯片算力壓榨出來。
郎咸朋:自研芯片的核心原因是作為一個(gè)專用芯片能夠針對自己的算法進(jìn)行特定地優(yōu)化處理,性價(jià)比和效率都會(huì)很高?,F(xiàn)在我們依然使用Thor芯片是因?yàn)橛ミ_(dá)對一些新的算子支持是比較好的,算力也比較充足,在整體VLA迭代過程中依然有變化的可能性,所以我們依然在用Thor芯片。如果未來算法鎖定,為了更好的效率和成本,大家都會(huì)考慮自研芯片的。
問:您剛才講到從規(guī)則到端到端+VLM是比較大的技術(shù)路線革新,但VLA其實(shí)沒有顛覆端到端+VLM,所以是否可以理解成VLA是偏向于工程能力的創(chuàng)新?
詹錕:VLA不只是工程方面的創(chuàng)新,大家如果關(guān)注具身智能,會(huì)發(fā)現(xiàn)這波浪潮伴隨著大模型對物理世界的應(yīng)用,這本質(zhì)就是提出了一個(gè)VLA算法,我們的VLA模型就是想把具身智能的思想和路徑引用在自動(dòng)駕駛領(lǐng)域。我們是最早提出,也是最早開始實(shí)踐的。VLA也是一種端到端,因?yàn)槎说蕉说谋举|(zhì)是場景輸入,軌跡輸出,VLA也是如此,但算法的創(chuàng)新是多了思考。端到端可以理解為VA,沒有Language,Language對應(yīng)的是思考和理解,我們在VLA中加入了這一部分,把機(jī)器人的范式統(tǒng)一,讓自動(dòng)駕駛也能成為機(jī)器人的一類,這是算法創(chuàng)新,不只是工程創(chuàng)新。
但對于自動(dòng)駕駛而言,很大的挑戰(zhàn)是必須要有工程創(chuàng)新。因?yàn)閂LA是一個(gè)大模型,大模型部署在邊緣端算力上是非常具有挑戰(zhàn)的。很多團(tuán)隊(duì)并不是認(rèn)為VLA不好,而是因?yàn)閂LA部署有困難,把它真正落地是非常具有挑戰(zhàn)性的事情,尤其是在邊緣端芯片算力不夠的情況下是不可能完成的,所以我們是在大算力芯片上才能部署。所以這不僅僅是工程創(chuàng)新,但的確需要工程部署大范圍優(yōu)化才能實(shí)現(xiàn)。
問:VLA大模型在車端部署的時(shí)候是否會(huì)有一些輕量化的版本,比如模型裁剪或蒸餾版本?如何在推理效率和模型之間做好平衡?
詹錕:在部署時(shí)的效率和蒸餾上我們做了非常多平衡。我們的基座模型是自研的8x0.4B的MOE模型,這是業(yè)界沒有的,我們在深入分析英偉達(dá)芯片后,發(fā)現(xiàn)這個(gè)架構(gòu)非常適合它,推理速度快的同時(shí)模型容量大,能夠同時(shí)容納不同場景、不同能力的大模型,這是我們在架構(gòu)上的選擇。
另外,我們是大模型蒸餾出來的,我們最早訓(xùn)練了一個(gè)32B的云端大模型,它容納了海量的知識(shí)和駕駛能力,我們把它做出的思考和推理流程蒸餾到3.2B的MoE模型上,配合Vision和Action,使用了Diffusion。我們用這樣的方法做了非常多的優(yōu)化。從細(xì)節(jié)上來看,我們也針對Diffusion做了工程優(yōu)化,并不是直接使用標(biāo)準(zhǔn)Diffusion,而是進(jìn)行了推理的壓縮,可以理解為一種蒸餾。以前Diffusion可能要推理10步驟,我們使用了flowmatching流匹配只需要推理2步就可以了,這方面的壓縮也是導(dǎo)致我們真正能夠部署VLA的本質(zhì)原因。
問:我們在測試時(shí)看到了,可以對VLA說前進(jìn)10米。您也提到了這個(gè)概念,大模型在訓(xùn)練數(shù)據(jù)中是沒有學(xué)習(xí)過這么具體的概念的,理想汽車是如何發(fā)現(xiàn)\了解背后機(jī)制的?另外,人類是否能信任大模型做出的判斷?
詹錕:首先,我們不會(huì)單純地讓模型學(xué)習(xí)向前走10m、12m這樣生硬的數(shù)據(jù),但是在海量的通識(shí)數(shù)據(jù)中,有很多對物理空間的理解。比如前方白車距離多少米,前方路沿和我有多少距離,而且現(xiàn)在大模型也已經(jīng)加入很多物理空間的知識(shí),包括現(xiàn)在的ChatGPT、千問都具備這樣的能力,把這些能力在大模型里學(xué)習(xí)之后,我們只需要在action中把它體現(xiàn)出來。剛剛分享了五步訓(xùn)練法,第一步就是加入通識(shí)能力和物理世界的知識(shí),在第二步時(shí)進(jìn)行一些微調(diào),將這樣的能力和action結(jié)合,就能夠?qū)崿F(xiàn),這是端到端的學(xué)習(xí)思路就能做到的。其實(shí)有一些背后的機(jī)制和現(xiàn)在的大模型是非常一致。當(dāng)我們把海量數(shù)據(jù)喂給它以后,這些數(shù)據(jù)具備組合泛化能力,并不是教什么學(xué)什么,當(dāng)量級達(dá)到一定規(guī)模時(shí),會(huì)涌現(xiàn)出一些能力,包括行為,并不是說必須11m、12m、13m,分別教才行。它懂了數(shù)字,懂了米數(shù),當(dāng)你在給它一個(gè)新的東西,它就存在一種組合泛化的機(jī)制。
這是大模型理論研究非常多的,但目前這樣的機(jī)制是可以在各個(gè)領(lǐng)域進(jìn)行泛化應(yīng)用的。所以我們很多能力和知識(shí)就是各個(gè)學(xué)科交叉的融合,我們也非常關(guān)注現(xiàn)在大模型的進(jìn)展,隨時(shí)可以向自動(dòng)駕駛上遷移。
問:郎博提到物理世界中實(shí)車測試是無法100%復(fù)現(xiàn)場景的,在仿真測試過程中是怎樣做到100%復(fù)原的?為什么理想汽車可以做到?
湛逸飛:我們在2024年進(jìn)行了150多萬公里的實(shí)車測試。實(shí)際上我們在2024年就已經(jīng)具備了世界模型仿真能力,我們在用這150多萬公里的實(shí)車測試來驗(yàn)證仿真環(huán)境的可靠性。事實(shí)上,最初世界模型仿真復(fù)現(xiàn)率或真實(shí)性存在問題,但我們通過與實(shí)車測試數(shù)據(jù)對比,在過去一年里針對仿真測試中的漏洞或缺陷進(jìn)行了大量工程和算法優(yōu)化,讓仿真一致性達(dá)到了非常高的程度。雖然并沒有達(dá)到100%,但準(zhǔn)確率也可以在99.9%以上。舉一個(gè)簡單的例子,在仿真環(huán)境中最開始紅綠燈的變化在200米外是看不清楚的,于是我們針對紅綠燈的視野模型仿真進(jìn)行了大量的優(yōu)化,包括對30°相機(jī)分辨率的提升。我們用過去一年的時(shí)間將仿真系統(tǒng)的可靠性提升到了很好的程度,才會(huì)放心地去使用這套系統(tǒng)。
問:從行業(yè)角度來看,目前智駕體驗(yàn)是比較趨同的,未來理想汽車是否會(huì)將自己的智駕能力向行業(yè)輸出或開源或向其他車企售賣?
郎咸朋:我認(rèn)為是可以的,我們希望為行業(yè)做貢獻(xiàn)。但前提是,第一,我們是不是能夠很好地驗(yàn)證這套系統(tǒng),因?yàn)檎麄€(gè)VLA的發(fā)展還是在技術(shù)周期的初期階段,需要繼續(xù)提升;第二,是否其他人有能力和我們一起去做這件事,因?yàn)樗残枰凶约旱脑u測方式、仿真環(huán)境,以及強(qiáng)化學(xué)習(xí)訓(xùn)練能力。
從公司或我個(gè)人的態(tài)度上,是希望能夠促進(jìn)行業(yè)發(fā)展,但從目前VLA技術(shù)發(fā)展階段來看,依然是比較初級的,它的發(fā)展速度可能會(huì)比較快,像端到端一樣,用一年的時(shí)間將效果提升10倍。行業(yè)發(fā)展速度會(huì)非???,我相信明年溝通的時(shí)候可能會(huì)討論一下開源的問題。
問:郎博提到了VLA語言交互是很重要的一部分,我們在公開道路試乘中發(fā)現(xiàn),當(dāng)前的語言交互在理解復(fù)雜指令上還有提升空間。針對這類理解能力的提升,接下來會(huì)有哪些關(guān)鍵改進(jìn)?我們何時(shí)能實(shí)現(xiàn)更自然的“怎么說就怎么做”的交互體驗(yàn)?VLA還處于起步階段,未來可預(yù)見的關(guān)鍵發(fā)展階段有哪些?您提到VLA要成為“更好的家庭司機(jī)”,那在駕駛風(fēng)格或“司機(jī)性格”的個(gè)性化定制方面,未來是否會(huì)有更多可能性?
詹錕:我先回答語音問題,因?yàn)檎Z音交互是對整車全系統(tǒng)的交互,這個(gè)地方我們目前是剛給大家看到VLA初步版本,有些它對語言的理解是一個(gè)全系統(tǒng)任務(wù),就是你對它說一句話,它到底是用來執(zhí)行車控還是用來執(zhí)行智駕需要有一些判斷,我們現(xiàn)在肯定是為了保持準(zhǔn)確,防止出現(xiàn)一些誤判,比如你本來不想操控車的行為,突然去操控了,這肯定是存在一些還需要迭代和優(yōu)化的地方。
我覺得未來有一個(gè)很重要的趨勢是整個(gè)車會(huì)有一個(gè)統(tǒng)一的大腦,當(dāng)這個(gè)車對統(tǒng)一大腦做的迭代更好的時(shí)候,不光是理解智駕、理解車機(jī)、理解整車,它還可以做出更精準(zhǔn)的,到底我是在操縱車,還是在操縱空調(diào),還是在打開窗戶,還是在播放音樂,這方面會(huì)有更好的理解,我們會(huì)對大腦做更長遠(yuǎn)的統(tǒng)一,這是我們后續(xù)長期會(huì)去做的方向。
另一個(gè)是我們現(xiàn)在對語言的交互、泛化理解,隨著數(shù)據(jù)量增加,會(huì)越來越多,而且會(huì)有很快的迭代,也可以想象其實(shí)大語言模型早期也會(huì)有一些很傻的行為,當(dāng)我們收集到更多反饋,收集更多迭代以后,進(jìn)步會(huì)非???,這其實(shí)是我們逐漸使用過程中會(huì)快速迭代的一個(gè)能力。
郎咸朋:我們也在考慮給不同的車、不同的使用者跟你相類似的駕駛風(fēng)格的體驗(yàn),不會(huì)所有車都是一套駕駛風(fēng)格,因?yàn)閺?qiáng)化學(xué)習(xí)是有這個(gè)能力來支撐它這個(gè)車越開越像你的風(fēng)格或體驗(yàn),之前端到端可能還不具備這樣的能力。不是設(shè)定的你自己的路線、你自己駕駛的風(fēng)格會(huì)越開越像你的,我們也在考慮端上的強(qiáng)化訓(xùn)練。
問:在Thor的FP8格式下實(shí)現(xiàn)1000TOPS算力,而行業(yè)普遍采用FP16處理算子。如何做到將精度從FP16降至FP8時(shí)保持模型精度(不掉點(diǎn))?向FP4演進(jìn)時(shí)需突破哪些關(guān)鍵技術(shù)?Blackwell已支持FP4原生硬件,但I(xiàn)NT4如何處理?Orin-X等平臺(tái)缺乏FP4原生支持,如何平衡硬件兼容性與計(jì)算效率?FP4實(shí)現(xiàn)2000TOPS等效算力后,能否支撐類人感知的幀率(如3FPS)?關(guān)鍵瓶頸會(huì)出現(xiàn)在哪里?
詹錕:我先解釋一下,我們把數(shù)值精度,首先從FP16或者FP32、FP8和INT8這樣去縮減的。
首先這是業(yè)界比較共識(shí)的一個(gè)問題,在大模型領(lǐng)域,大家對數(shù)值精度的要求會(huì)降低,這也是為什么到LLM領(lǐng)域,大家看到DeepSeek開始推它的FP8,為什么以前不行?也是因?yàn)槟P蛥?shù)規(guī)模過大,對它的容錯(cuò)變低了,它通過更多的層,更多的數(shù)據(jù)容量,把之前的異常值降的越來越少,這是大模型一個(gè)特性,這也是為什么到VLM、VLA領(lǐng)域以后,大家會(huì)逐漸往低精度,更精細(xì)的計(jì)算密集型的算子上去靠近,這是很大一個(gè)變化。如果我們還用原來的方法,那是不太行的,它會(huì)要很高的FP32、FP16這樣的數(shù)值精度,那到VLM才能做這樣的事情。
另一個(gè),量化訓(xùn)練。傳統(tǒng)的訓(xùn)練一般都會(huì)拿FP32去做訓(xùn)練,所以拿出來的參數(shù)就是FP32的數(shù)值精度。那我們有一個(gè)訓(xùn)練過程叫QAT,就是在訓(xùn)練過程中,我把參數(shù)就把它變成INT8或FP8,這樣的過程中,我們只能用數(shù)據(jù)精度去做模型訓(xùn)練迭代,這樣我們拿出來的模型就能適配模型的推理精度。
以往企業(yè)是很難做好的,是因?yàn)檫@個(gè)訓(xùn)練過程中會(huì)非常不穩(wěn)定,這里面會(huì)有大量的訓(xùn)練框架優(yōu)化,訓(xùn)練策略的優(yōu)化才能做。可能我先拿FP32把模型訓(xùn)練收斂了,我用QAT的方式,訓(xùn)練成FP8這樣的小數(shù)值精度。
另一個(gè)很重要的,我們還是做了大量的數(shù)據(jù)清洗。以往出現(xiàn)這種數(shù)據(jù)噪點(diǎn)還是因?yàn)橛信K數(shù)據(jù),這也是為什么剛剛說我們還是在1000萬上面做,但是我們這里面做了大量的數(shù)據(jù)清洗、數(shù)據(jù)儲(chǔ)備工作,把不好的數(shù)據(jù)去掉,這樣才能讓訓(xùn)練變得穩(wěn)定、變得收斂,這也是目前像大語言模型大家常規(guī)的迭代方向,把數(shù)據(jù)精度做的越來越精細(xì),把數(shù)據(jù)清洗得越來越干凈,它訓(xùn)練也會(huì)越來越收斂。
第一個(gè)方向是會(huì)往FP8、INT8方面做。另一個(gè),F(xiàn)P4,這也是像英偉達(dá)他們這些最先進(jìn)的芯片提出來的,我們能不能把算力再降1倍,原來是要8個(gè)字節(jié)才能算一個(gè)點(diǎn),我們變成4個(gè)。這里面很重要一點(diǎn),模型的數(shù)值參數(shù)范圍一定要夠小,我們訓(xùn)練要更加穩(wěn)定,每一次數(shù)據(jù)用量對待你的模型訓(xùn)練迭代都是有更高的要求,目前看我們是有機(jī)會(huì)做到這里的。
如果你想做FP4,所以你要在訓(xùn)練上花更多精力,做更多的數(shù)據(jù)迭代、數(shù)據(jù)清洗,才能往這方面做。目前我們也在做這樣的嘗試,很快就可以在把Thor的芯片壓榨出來。
回到Orin,由于硬件限制,確實(shí)沒辦法做FP8這樣的計(jì)算,但是它有INT8。所以我們在Orin上,現(xiàn)在也是用了INT4的量化,再加FP16和INT8的混合精度推理,逐漸把大模型在Orin上部署。再往后走,由于硬件的限制,我們不能在做更多的精度壓縮。但是我們會(huì)同樣把VLA這樣的模型體驗(yàn)放在Orin和Thor上同平臺(tái)。
問:到2000TOPS之后,幀率能不能跑到30幀去?
詹錕:目前來看我們在絕大部分場景10Hz,特別是城市,10Hz是夠用的。如果我們算力能用FP4,那肯定是能double20Hz,是可以做到。但是需不需要跑到30,這個(gè)我們得看情況,可能有人說特斯拉跑到30,我們了解到它也并不是完整的30Hz,它也有一些其他的方法做這樣的東西。那我們還是把反應(yīng)速度和體檢做上來,并不是追求一個(gè)簡單的數(shù)字。
問:理想是國內(nèi)VLA模型最早落地的車企,肯定也是摸著石頭過河,在研發(fā)VLA過程中哪方面挑戰(zhàn)是最大的,或者花費(fèi)時(shí)間最長?在摸著石頭過河肯定有很多流程或什么被驗(yàn)證是錯(cuò)的,就踩過哪些坑?從端到端切換到VLA的時(shí)候,可能不僅僅是技術(shù)路線的切換,可能整個(gè)組織架構(gòu)也需要調(diào)整,理想在研發(fā)VLA組織架構(gòu)進(jìn)行了怎樣的調(diào)整?
郎咸朋:我們馬上就要交付VLA了,肯定也是國內(nèi)最早落地VLA的企業(yè)。
首先,我覺得挑戰(zhàn)最大的是要把整個(gè)研發(fā)流程進(jìn)行迭代,每一個(gè)技術(shù)革新也伴隨著研發(fā)流程或研發(fā)方式的迭代,去年端到端需要一個(gè)數(shù)據(jù)驅(qū)動(dòng)流程,我們之前做得很好,到今年一定要做強(qiáng)化學(xué)習(xí)的流程,就必須要快速驗(yàn)證我們世界模型的可靠性、有效性,也需要快速搭建我們高效仿真環(huán)境。我們今年很多推理卡也需要大量的去購買、去部署等等,我覺得研發(fā)挑戰(zhàn)最大的除了技術(shù)本身之外,是伴隨技術(shù)迭代的研發(fā)流程改革。
組織層面,我們組織并不是大家想象的是一個(gè)職能性的組織,還是IPD組織,可以理解成是一個(gè)大的項(xiàng)目的形式,雖然大家都在現(xiàn)在部門里可能有一些部門的分工、分配,但不管去年做端到端,還是前年做無圖,還是今年做VLA,都是成立了內(nèi)部項(xiàng)目組來做,對我們來說,組織挑戰(zhàn)倒還好,因?yàn)榇蠹疫@么多年也比較習(xí)慣于這種項(xiàng)目制的研發(fā)了,而且這反而成為我們一種優(yōu)勢,端到端去年是180個(gè)人,今年VLA稍微多一點(diǎn),200多個(gè)人,其實(shí)并不是弄幾千人去做,我覺得不需要,我覺得做得最好的是特斯拉,永遠(yuǎn)都是那一兩百人,做的還都挺好的。
問:后續(xù)還有很多國內(nèi)友商也在跟進(jìn)VLA,理想在整個(gè)研發(fā)過程中,踩過最大的坑能給大家介紹一下嗎?
郎咸朋:像我們?nèi)ツ曜龆说蕉艘埠?,今年做VLA也好,產(chǎn)品自己本身就會(huì)說話,今天體驗(yàn)到的這些產(chǎn)品就是我們研發(fā)的結(jié)果,如果遇到問題,遇到坑的話,不會(huì)進(jìn)展這么快。
非要說坑可能沒有,但我覺得這里面有個(gè)最大的體驗(yàn),還是你對整個(gè)行業(yè)的判斷或整個(gè)自動(dòng)駕駛認(rèn)知決定了你是否會(huì)踩坑。
去年也有人問過我類似的問題,我覺得我們是不斷持續(xù)迭代對自動(dòng)駕駛甚至人工智能認(rèn)知的,很早我們就理解自動(dòng)駕駛問題是一個(gè)人工智能問題,我在之前很多會(huì)上或?qū)ν獾难葜v上也都提到過,你想做好人工智能必須做好你的算法、數(shù)據(jù)和算力。
我們第一個(gè)要突破的是數(shù)據(jù)問題,如果沒有數(shù)據(jù),其實(shí)你的算力、算法再好也訓(xùn)不出來,企業(yè)不可能空轉(zhuǎn),你必須有很好的數(shù)據(jù)。我們從2021年開始做AD的時(shí)候就開始搭建自己的數(shù)據(jù)閉環(huán),所以我們在去年做端到端的時(shí)候能拿出這么多數(shù)據(jù)去做。
但在去年做端到端的時(shí)候一直也在反思,是不是端到端就夠了,如果不夠的話我們還需要再做什么,去年我們一直在研發(fā)VLA的一些預(yù)研,其實(shí)VLA的預(yù)研代表的是我們對人工智能的理解并不是一個(gè)模仿學(xué)習(xí),一定像人類一樣是有思維的,是有自己推理能力的,換句話說它一定要去有能力解決它沒有見過的事情或未知的場景,因?yàn)檫@個(gè)在端到端里可能有一定的泛化能力,但并不是足以說有思維。
就像猴子一樣,它可能也會(huì)做出一些你覺得超越你想象的事情,但它不會(huì)總做出來,但人不是,人是可以成長的、可以迭代的,所以我們一定要按照人類的智能發(fā)展方式去做我們的人工智能,我們就很快從端到端切換到了VLA方案去做。
我們一直認(rèn)知還是比較好的,小坑肯定有,比如算力儲(chǔ)備的多少,交付快點(diǎn)慢點(diǎn)等,小的工程細(xì)節(jié)、優(yōu)化,肯定各家都會(huì)遇到,我覺得遇到小坑其實(shí)沒有問題,但不要遇到大的判斷失誤,我覺得我們運(yùn)氣還是可以的。
詹錕:我補(bǔ)充一下,可能也不叫坑,是個(gè)經(jīng)驗(yàn),還是要相信AI的力量,就是要相信ScalingLaw。可以看到開始郎博KN里面有一個(gè),我們之前是相信dataScalingLaw,其實(shí)我們看到了很好的效果,其實(shí)下一步就是現(xiàn)在的testtimesScalingLaw。當(dāng)我們能給更多的數(shù)據(jù)、更大的訓(xùn)練時(shí)長,它總能出更好的效果,我覺得這就是一個(gè)需要堅(jiān)信的或者AI界現(xiàn)在叫“thebitterlesson,苦澀的教訓(xùn)”,我們要堅(jiān)信這個(gè)地方。
問:關(guān)于芯片您有解釋怎么做好量化精度的,但是我好奇的點(diǎn)是,感覺配合Thor芯片上車的過程,應(yīng)該也不太容易。開始的時(shí)候可能連車規(guī)也沒有,你們雙方當(dāng)時(shí)是怎么磨合的?第二個(gè)問題,關(guān)于云端大模型。剛才有說理想是32B,基于這個(gè)大模型,所以推理能力從10步縮減到2步。但是我看有的友商說自己是72B的超大規(guī)模參數(shù),世界基座模型,他們是主流模型的35倍。所以這種是越大越好嗎?車企到底用多少B的模型是最合適的,判斷的維度是什么?
郎咸朋:我們是第一次用Thor芯片上車的,我們也是在過去L9的時(shí)候,第一個(gè)用Orin芯片。再往前,我們是第一個(gè)用J3芯片。其實(shí)我們積累的很多跟芯片廠商的供應(yīng)商的這種合作經(jīng)驗(yàn),包括再往前推算J3芯片,當(dāng)時(shí)J3芯片設(shè)計(jì)很有缺陷。但是我們會(huì)跟合作伙伴一起,去做一些優(yōu)化和迭代,這都是很正常的一個(gè)過程。
在這個(gè)過程當(dāng)中,一方面芯片廠商會(huì)根據(jù)我們的要求,去做一些芯片設(shè)計(jì)或者芯片本身的一些調(diào)整;另外,我們也會(huì)根據(jù)芯片本身的一些特點(diǎn),如果它達(dá)不到我們的要求,我們也會(huì)去迭代算法、方案,針對它進(jìn)行調(diào)整。因?yàn)橐粋€(gè)新的芯片應(yīng)用,一定是伴隨著一些相互之間的磨合和迭代。
那么J3是我們第一個(gè)用的自研芯片,第二個(gè)就是英偉達(dá)的Orin芯片。Orin芯片其實(shí)在剛上來的時(shí)候,我們雖然不是第一個(gè)拿到了,而且一下子拿到很多。但是我們是第一個(gè)量產(chǎn)上車的,第一個(gè)交付的,因?yàn)樗麄兘桓妒潜任覀兺砹藥讉€(gè)月。我們在整個(gè)Orin芯片,從拿到到交付大概用了八九個(gè)月的時(shí)間,別人可能用12個(gè)月以上的時(shí)間。
一個(gè)方面是我們有很好的工程優(yōu)化落地能力之外;另一方面,一個(gè)新的芯片做出來,一定還是有一些調(diào)整的。我們的迭代速度會(huì)比較快,我們不會(huì)死扣著一個(gè)方案不放,我們還會(huì)根據(jù)芯片自己的特點(diǎn),去做一些調(diào)整和優(yōu)化。
Thor芯片它是一個(gè)全新的芯片,在應(yīng)用、部署方面有什么問題,我覺得這都很正常的。敢于采用新的首發(fā)芯片的企業(yè),它都會(huì)遇到這些問題并且把它解決掉,都是工程師之間一些正常的討論、優(yōu)化、合作的一些過程。
我們從2021年的第一個(gè)量產(chǎn)項(xiàng)目就已經(jīng)這么做了,到今年也是如此。供應(yīng)商跟我們的配合也非常好,最早在J3芯片的時(shí)候,應(yīng)該是地平線,也是非常重視,把它的工程師都派到理想來,跟我們一起到測試廠加班合作,芯片問題他們就及時(shí)問題,算法問題我們及時(shí)解決。
在英偉達(dá)的配合里也是一樣的,有時(shí)候也會(huì)做到一起做芯片的一些部署、優(yōu)化等,我覺得這都是很正常的一些過程,不存在態(tài)度上的問題。
英偉達(dá)和地平線都是很好的芯片廠商,也都是我們很好的合作伙伴,我們也常年跟他們有很好的合作基礎(chǔ)。我們也知道,芯片的產(chǎn)生,它需要有很多輸入,我們也在新的芯片研發(fā)過程當(dāng)中,我們也給他提供很多輸入,比如J3上的問題,它在J5上解決了;Orin-X問題,可能在Thor上解決了,Thor上問題可能也會(huì)在其他的方面去解決。我覺得這是一個(gè)正常的研發(fā)過程,主要還是看最終的應(yīng)用情況。
第二個(gè)是云端模型是72B好還是32B好。其實(shí)我覺得各有各的好,你愿意用,你用15B,我也不攔著你。但是你是否能把模型訓(xùn)練到的能力,蒸餾好了之后,不管用MoE的方式還是用稠密的方式,能落到自己的芯片上,做好優(yōu)化、量化的部署,并且轉(zhuǎn)換成用戶的實(shí)際價(jià)值。我覺得能做到這點(diǎn),都是好的應(yīng)用。
當(dāng)然,對于我們理解來講,模型的參數(shù)量越大,訓(xùn)練消耗的資源、消耗的東西就會(huì)越多,可能效率也會(huì)低一點(diǎn)。
另外,如果你還想把一個(gè)更大的模型蒸餾成一個(gè)非常小的模型,在蒸餾過程當(dāng)中,它的能力損失也是可能存在的,這里面也很考驗(yàn)各家工程師的量化優(yōu)化的一些部署能力,我覺得這是研發(fā)過程當(dāng)中的一些過程。
最終,對于消費(fèi)者來說,我們還是要看最終的產(chǎn)品體驗(yàn)以及最終給用戶帶來的價(jià)值。
湛逸飛:剛才有提到云端大模型的參數(shù)量,其實(shí)也不完全只看參數(shù)量。同樣一個(gè)參數(shù)量的大模型,你給它什么數(shù)據(jù)也是非常重要的?,F(xiàn)在大模型行業(yè)甚至有一些大幾百B的,都是基于互聯(lián)網(wǎng)數(shù)據(jù)去抓取一些通用的數(shù)據(jù),而且互聯(lián)網(wǎng)上的數(shù)據(jù)污染現(xiàn)在已經(jīng)越來越嚴(yán)重。我們理想汽車做云端的大模型,我們是有基于自己的這些數(shù)據(jù)去做訓(xùn)練能力,比如它在駕駛場景的理解上能力,是比那些通用的大模型的能力要強(qiáng)很多。當(dāng)然,你不會(huì)拿我們的云端大模型去跟那些大模型去比編程,因?yàn)槲覀冃枰氖撬鼘︸{駛場景的理解能力。所以在模型參數(shù)的基礎(chǔ)上,給它訓(xùn)了什么數(shù)據(jù)也是非常重要的一個(gè)事情。
問:我提兩個(gè)問題,第一個(gè)是剛才試乘的過程中,我們遇到一個(gè)場景,一個(gè)很窄的雙向道,我們右手邊有一個(gè)三輪車,我們跟它說向左變道,車其實(shí)是要跨對向車道,但是它沒有過去。我聽講解員跟我們說,以前你們是可以過去的,現(xiàn)在它不可以過去。所以我想聽一聽VLA司機(jī)在產(chǎn)品定義和用戶價(jià)值層面,你們經(jīng)過了哪些內(nèi)部討論和辨證,最終選擇了目前這個(gè)版本。第二個(gè)問題,大家對于VLA這個(gè)概念一直有一些討論。前段時(shí)間有人說VLA和好的模型,其實(shí)是兩個(gè)概念。其實(shí)大猩猩和老鼠,它們腦子里面都有一個(gè)VLA的Model,它是表明可以干這些事情的。但是好的模型,它可能更多是取決于數(shù)據(jù)和強(qiáng)化學(xué)習(xí)。背后的技術(shù)支撐,其實(shí)是強(qiáng)化學(xué)習(xí)。你們怎么看這個(gè)觀點(diǎn)?
詹錕:正常VLA它自己能理解這是雙向單車道,如果仔細(xì)看它的CoT(思維鏈)過程,我們之前給它的價(jià)值觀判斷或者價(jià)值觀對齊的數(shù)據(jù),就是讓它不要在雙向單車道去逆行。
之前說,VLA是一個(gè)更好的家庭司機(jī),無論在什么情況下,我們還是會(huì)以安全、舒適、安心這樣的價(jià)值觀來對齊它。所以在這種情況下去跨逆行車道,我們是不建議的。但是如果需要微調(diào)出這樣的版本,在技術(shù)上肯定是可以的,但是我們還是希望能給到一個(gè)更安全、更安心的駕駛體驗(yàn)。如果后面有機(jī)會(huì)我們會(huì)做一些更好的風(fēng)格或者是嘗試,這是目前想給大家展現(xiàn)的一個(gè)VLA的價(jià)值觀和體驗(yàn)。
我覺得剛剛說這個(gè)觀點(diǎn)還挺有意思的,VLA它是一種模型架構(gòu),它并不一定代表好的模型,這個(gè)觀點(diǎn)我是贊同的。首先,別說VLA了,每個(gè)人都說它有端到端,但不是每個(gè)端到端都開的很好。任何一個(gè)模型,它是什么樣的設(shè)計(jì)思路,只代表了它的想法,但不代表它能落地。所以VLA我們也是說它是全新的架構(gòu),但是要訓(xùn)練出好的模型,還要下很大的功夫,我們需要更好的數(shù)據(jù)、算力、工程部署,才能做出來好的VLA。所以這肯定是一個(gè)充分不必要條件,我們希望是有好的模型來迭代它。
剛剛VLA架構(gòu)我們也說了很多它的優(yōu)勢,相對VA模型,或者端到端模型,VLA模型是有思考能力的,這是它不可否認(rèn)的一個(gè)優(yōu)勢。如果不是用這種大語言模型的預(yù)訓(xùn)練、后訓(xùn)練的思路,是很難把這樣的知識(shí)融進(jìn)去。所以我們也得承認(rèn),這樣的架構(gòu)才能帶來這樣的能力。
剛剛反復(fù)強(qiáng)調(diào)在VLA里面,L是非常重要的。我們也認(rèn)為,自動(dòng)駕駛想要往L4或者往更高的能力前進(jìn),L是一個(gè)必經(jīng)之路?,F(xiàn)在無論是大語言模型,還是其他的模型,也都開始做端到端的L。我們在去年年底的時(shí)候,意識(shí)到這個(gè)過程,所以我們在大力的去發(fā)展L,而且目前也在VLA里面有很多應(yīng)用。
問:問題一:在VLA的訓(xùn)練中,在語言模型上是怎么避免大模型由于跟人類理解不同從而產(chǎn)生的反常識(shí)或者反人類習(xí)慣的生成指令,我們是如何解決的?問題二:在后續(xù)的強(qiáng)化訓(xùn)練中,理想用一組24的案例去證明,那我們是以什么樣的標(biāo)準(zhǔn)決定這個(gè)case是訓(xùn)練OK的?問題三:VLA在理想i8上首發(fā),同時(shí)也是i8的核心賣點(diǎn)之一,如果您作為智駕的締造者,您是怎么去看待用什么樣更好的方式,去跟司機(jī)溝通,相互信任的感情也好,或者吸引顧客愿意購買,去展示我們VLA的功能
詹錕:首先以現(xiàn)在的技術(shù)而言大模型已經(jīng)有了一些初步的共識(shí)方法和思路。
第一,我們需要對不好的數(shù)據(jù)做精細(xì)的清洗,清洗的越多,質(zhì)量就越好。
第二,合成數(shù)據(jù)。之前會(huì)有很多大語言模型會(huì)有幻覺,本質(zhì)上因?yàn)椤按竽P汀睂@個(gè)東西是不理解的或者沒見過的,在它這個(gè)領(lǐng)域之外回答問題。所以我們需要構(gòu)建很多數(shù)據(jù),甚至合成數(shù)據(jù),去讓它把這個(gè)領(lǐng)域理解到位,能把所有的知識(shí)能夠知道,甚至知道它什么不知道,這是它很重要的一個(gè)能力。
通過這兩個(gè)思路,其實(shí)大幅能降低語言模型的幻覺能力,甚至反常識(shí)的東西。
第三,超級對齊,讓它去更做到符合人類價(jià)值觀,比如剛剛那個(gè)例子,不能跨對向車道,就是類似的思路,這是第一個(gè)問題。
湛逸飛:首先只有完整的走過這種閉環(huán)仿真的整個(gè)流程玩家才能真正的去做強(qiáng)化訓(xùn)練。
因?yàn)槲覀兪窃陂]環(huán)仿真這個(gè)系統(tǒng)搭建起來的過程中積累了一套非常完整對車輛行為判斷的一套系統(tǒng),這套系統(tǒng)甚至還用了剛才提到的這些云端的32B模型,不僅是蒸餾完以后給車端用,在云端用這些大的模型去做推理、判斷這個(gè)車在仿真環(huán)境里的行為是否正確,同時(shí)我們從很多的維度,包括“安全、舒適、合規(guī)、效率”等,對車輛的行為做一個(gè)評價(jià),總體來給出一個(gè)打分,我們也叫reward,目的是告訴他這個(gè)車在仿真環(huán)境里。
郎咸朋:第三個(gè)是i8首發(fā)的問題,i8首發(fā)我們當(dāng)然也希望VLA會(huì)成為用戶購買i8的一個(gè)非常重要的因素,同時(shí)也會(huì)致力于首先讓之前用過理想智駕的老用戶有個(gè)非常好的體驗(yàn)升級,其次也希望有更多沒有用過輔助駕駛、自動(dòng)駕駛的用戶一上來就會(huì)對智駕有很好的感受和新鮮感。
剛才也提到了通過VLA技術(shù)架構(gòu)的一個(gè)能力升級,更多是想給用戶帶來實(shí)車體驗(yàn)的升級,包括“舒適度、安全感”兩個(gè)最核心的指標(biāo),其次還有“可交互性、駕駛能力、技巧”等的提升。
它是一個(gè)綜合維度體驗(yàn)的提升,你剛才提到思維鏈的一些展示,如果有人喜歡琢磨、喜歡研究VLA的過程是怎么回事的話,我們給他展示出來讓他可以去看一看,如果有的用戶對這個(gè)不是特別感興趣,只是講究開車時(shí)的安全體驗(yàn)的,首先他站在之前端到端基礎(chǔ)上,一定會(huì)比端到端基礎(chǔ)要好的前提下再持續(xù)提升VLA的體驗(yàn)。
所以,讓我們的用戶體驗(yàn)會(huì)越來越好,而且我覺得它的這種體驗(yàn)需要有一個(gè)過程,這個(gè)過程就是原來從10MPI到100MPI,現(xiàn)在從100MPI到1000MPI,有可能100到200你可能還沒有太大感覺,但我相信100到1000的感覺還是絕對可以體驗(yàn)出來的,就像去年端到端和現(xiàn)在的端到端你肯定有很強(qiáng)的體驗(yàn)。
問:問題一:今年下半年開始,各家車企,包括友商都會(huì)推進(jìn)VLA,理想對于VLA這個(gè)技術(shù)的優(yōu)勢或技術(shù)壁壘是什么樣的?問題二:理想對VLA司機(jī)的定義是一個(gè)更好的家庭司機(jī),一個(gè)安心的移動(dòng)空間,未來VLA技術(shù)會(huì)不會(huì)拓展到別的產(chǎn)品線或一些服務(wù)過程中,撇開商品車之外的那些服務(wù)?
詹錕:第一個(gè)是我們的技術(shù)棧是有延續(xù)性的,并不是從之前的規(guī)則時(shí)代突然跳到VLA,那它肯定會(huì)有各種各樣的問題,比如有沒有把數(shù)據(jù)積累上來,有沒有那么好的訓(xùn)練,有沒有那么好的仿真評測系統(tǒng)等等。我們現(xiàn)在做VLA其實(shí)是一個(gè)延續(xù)性的技術(shù)架構(gòu),甚至把原來的優(yōu)勢都利用起來,站在巨人的肩膀上繼續(xù)做。
第二,我們在RD預(yù)研方面其實(shí)投入非常多,VLA在自動(dòng)駕駛領(lǐng)域是相對新的一個(gè)方向和領(lǐng)域,從去年年底到現(xiàn)在做了相當(dāng)多預(yù)研,無論是在各個(gè)頂會(huì)上的論文,一個(gè)是我們在研發(fā)上面也專門立了TBP的項(xiàng)目,來推進(jìn)VLA的技術(shù)探索,這塊其實(shí)是我們一直在堅(jiān)持的“預(yù)研一代、研發(fā)一代、交付一代”的思路。所以從時(shí)間上來說,我們VLA起步相比其他友商或者競爭對手更有優(yōu)勢。
第三,我們相信VLA在未來會(huì)形成一個(gè)更大的、統(tǒng)一的架構(gòu)。我們也覺得VLA是在對物理世界AI落地來說,是非常好、非常一致性的前瞻技術(shù),并不僅僅是自動(dòng)駕駛,可能是物理AI目前看到最合理的一個(gè)方向。
郎咸朋:補(bǔ)充兩個(gè)點(diǎn),第一技術(shù)壁壘肯定是有,理想最核心的技術(shù)壁壘還是世界模型仿真的壁壘,這個(gè)壁壘是非常高的,別人很難短時(shí)間去復(fù)制出來。因?yàn)樗牡俣鹊么_保,且還得用實(shí)車去測試,所以是很難超越我們的。
第二,這肯定是可以拓展的,我們也成立了各種其他的機(jī)器人部門。VLA是一個(gè)很好的具身智能的技術(shù)框架,可能可以延續(xù)到其他方向。
問:OrinX后續(xù)版本的推送是同步的,還是會(huì)有差異;另外,OrinX去推VLA的時(shí)候,它的能力上限在你們內(nèi)部去考慮,后續(xù)多長時(shí)間它會(huì)和ThorU拉開差距,還是一直去保持同步的更新。
郎咸朋:我們是同步推送的,這次如果i8上線的時(shí)候,老用戶ADMax的車主,包括2022年買車的,只要你是OrinX的芯片或者Thor芯片,都會(huì)同步的推送。目前測試來看在能力上是沒有任何差異的,幀率上也沒有差異,我們做的工程優(yōu)化都非常好,都是10幀的。唯一的差異就是i8的底盤跟L9的底盤是有些差異,舒適度的體驗(yàn)上可能是有一些不同。
后續(xù)的推送節(jié)奏也是同步的,就是Orin平臺(tái)和Thor平臺(tái)都是同步來推送。至于什么時(shí)候能拉開差異,我們現(xiàn)在肯定不會(huì)做這種差異化。但是隨著下一步的迭代,如果我們在INT4的量化上有一些突破,那個(gè)時(shí)候可能會(huì)有一定差異,但是現(xiàn)在談這個(gè)還為時(shí)尚早。
問:問題一:VLA截止目前沒有發(fā)布明確的規(guī)劃是因?yàn)樯虡I(yè)的因素還是現(xiàn)在的效果還達(dá)不到你們的期待?問題二:今天體驗(yàn)過程中感覺有一些很明顯的不足。比如有些障礙物,還沒辦法識(shí)別。我們今天體驗(yàn)的這一版實(shí)車,在你們心里的評分大概是多少?要達(dá)到多少分,你們認(rèn)為才可以大量的推送給用戶。
郎咸朋:我們一定會(huì)比友商早,我們一定是第一個(gè)。
關(guān)于第二個(gè)問題,我們內(nèi)部是有一個(gè)打分的機(jī)制,以仿真為例,現(xiàn)在是全面先對標(biāo)OTA7.5,OTA7.5是我們在端到端上最后一個(gè)版本。這個(gè)版本的得分,內(nèi)部是有評分的,我們在推出第一版VLA的時(shí)候,包括大家今天試駕這版的VLA,它在我們內(nèi)部的打分已經(jīng)全面超越了端到端7.5、OTA7.5的。但是在一些小的分?jǐn)?shù)上,可能有一些波動(dòng)的。在整體的打分情況上,這個(gè)版本已經(jīng)超越了端到端一點(diǎn)點(diǎn)。
但是我們在真正推送用戶之前,我們會(huì)做到一個(gè)明顯的效果提升。今天大家試到的是我們特意讓大家先試一下我們在舒適度上的一些提升,如果大家比較熟悉車,肯定是能體驗(yàn)出來的。接下來我們會(huì)在“安全、合規(guī)、導(dǎo)航、效率”等等方面,我們會(huì)在自己的一些維度上都會(huì)有較大幅度的提升。
讓熟悉我們車的人買i8一上車就會(huì)有非常大的體驗(yàn)。讓沒用過輔助駕駛的人,使用輔助駕駛的時(shí)候,也會(huì)有很強(qiáng)的安全感和安心感,而且還有很強(qiáng)的舒適程度。但是內(nèi)部的評分標(biāo)準(zhǔn),我們是自己有自己的評分標(biāo)準(zhǔn)。
問:提問一個(gè)關(guān)于數(shù)據(jù)的問題,在仿真加進(jìn)來并且它發(fā)揮的作用越來越大之后,理想是怎么定義所謂的優(yōu)質(zhì)數(shù)據(jù)或者什么是不好的數(shù)據(jù),是不是說對模型迭代有促進(jìn)作用的數(shù)據(jù)就叫優(yōu)質(zhì)數(shù)據(jù),但這個(gè)定義可能又太寬泛,理想有沒有一些可以量化的衡量標(biāo)準(zhǔn)。
湛逸飛:我們需要的數(shù)據(jù)用一個(gè)詞總結(jié)叫“老司機(jī)數(shù)據(jù)”。在訓(xùn)練過程中,對數(shù)據(jù)的篩選。從去年端到端開始一直到現(xiàn)在,我們在云端有很多程序,甚至是云端的大模型,對這些數(shù)據(jù)進(jìn)行檢查,來檢查他們是否符合我們所定義的“老司機(jī)”的標(biāo)準(zhǔn)。比如他在正常行駛的時(shí)候,不可以不居中。
舉一個(gè)例子,望京地區(qū)有一些右轉(zhuǎn)車道上有違停車道,我們到底需不需要這個(gè)車輛可以壓著實(shí)線繞行過去,如果不壓著實(shí)線繞行過去,你在望京地區(qū)可能就沒法完成右轉(zhuǎn)。所以我們對這些數(shù)據(jù)的理解,是花費(fèi)了很大的功夫,在這個(gè)基礎(chǔ)上做了很多清洗,總量還是1000萬,但實(shí)際上這里面是在進(jìn)行不斷替換的。
郎咸朋:我們有實(shí)驗(yàn)?zāi)P椭?,像cornercase以及一些困難場景的數(shù)據(jù),我們會(huì)通過合成數(shù)據(jù)來提供。
剛才你說是不是能提升性能數(shù)據(jù)就是好數(shù)據(jù),你剛才問了這樣一個(gè)觀點(diǎn)。從某種意義上說是,但是在端到端的時(shí)候就是這樣的。但是在端到端的時(shí)候,我們的數(shù)據(jù)更多是用來訓(xùn)練端上的模型,但是到了強(qiáng)化學(xué)習(xí)之后,數(shù)據(jù)其實(shí)更大的作用是來訓(xùn)世界模型,讓世界模型變的更加符合真實(shí)世界。
我們更多的訓(xùn)練數(shù)據(jù)是來自于合成數(shù)據(jù)的。因?yàn)槲矣X得量上來說,或者類別來說,已經(jīng)足夠了。但是在細(xì)分的類別上,還是需要更多的用合成數(shù)據(jù)來補(bǔ)充我們的訓(xùn)練。
各家做的也都不太一樣,5年前確實(shí)理想作為一個(gè)追隨者進(jìn)入了自研的自動(dòng)駕駛賽道,但我們對自動(dòng)駕駛的思考并不是從2020年開始的,我們剛進(jìn)理想的時(shí)候,當(dāng)時(shí)李想面試的時(shí)候跟我聊,說你覺得最重要的是什么,比如想在自動(dòng)駕駛做成功或者做到第一?
我說現(xiàn)在來看就是數(shù)據(jù),雖然說別的都很重要,但數(shù)據(jù)必須要提前開始準(zhǔn)備,我們是從理想ONE開始做數(shù)據(jù)閉環(huán)的一些工作,當(dāng)然那時(shí)候數(shù)據(jù)還比較少。給大家公布一個(gè)數(shù)字,其實(shí)2021年大家也覺得我們做的挺快的,雖然一些地平線芯片的加持,有一些可能當(dāng)時(shí)做的ADAS也不是特別難,但有工作量很大,那時(shí)候我們訓(xùn)模型的數(shù)據(jù)并不是買了個(gè)數(shù)據(jù)什么的,而是在2020年我們通過第一個(gè)完整的交付年,累計(jì)了1500萬左右的有效回傳數(shù)據(jù),我們確實(shí)做了很多數(shù)據(jù)標(biāo)注,樣本是從這積累出來的。
從那開始慢慢往后做,這5年做下來,從去年端到端開始,業(yè)界或我們的競爭對手真正把理想自動(dòng)駕駛當(dāng)回事了,但他們?yōu)闀r(shí)已晚,因?yàn)檫@些能力建設(shè)不是一天兩天就能完全建立起來或者達(dá)到我們效果的,今年開始做VLA,我們是第一個(gè)提出并馬上是第一個(gè)交付的,很多人還在嘴上說,還在用端到端的方式去做VLA。
剛才我畫了一個(gè)圖想表達(dá)一個(gè)觀點(diǎn)如果還是沿著端到端思路去做所謂VLA的話,你的速度一定會(huì)變慢,不管是1000萬,還是2000萬,哪怕是1個(gè)億的Clips,首先你要訓(xùn)1億個(gè)Clips需要多大的訓(xùn)練算力,模型搞到多少先不說。另外,你的迭代速度會(huì)變慢。
如果你沒有很好世界模型、仿真環(huán)境,這個(gè)世界模型不是部署在車端的,是在云端的,云端的世界模型真的是幫助我們算法訓(xùn)練的,模擬了一個(gè)真實(shí)的物理世界,我們現(xiàn)在是場景的生成,在結(jié)尾處我們給它秀了一段1公里×1公里的完整的區(qū)域仿真,如果再做的完善一點(diǎn),我們最終的目標(biāo)是讓我們算法在模擬世界里跑極品飛車,像《SimCity》,是模擬的一個(gè)城市環(huán)境。我們希望在我們生存的世界里是一個(gè)完整的Agent,是智能體,有車來撞它時(shí)它會(huì)躲,有什么人走過來它會(huì)讓什么的。所以我剛才秀了一段我們3D資產(chǎn),就是每一個(gè)里面的交通參與者,我們是精致到我都有他的3D模型,并且賦予他Agent的智能體,所以他在我的環(huán)境里不管是靜態(tài)的東西,還是動(dòng)態(tài)的東西是一個(gè)完整的、真實(shí)的物理世界的“純仿真、純模擬”,如果達(dá)到這種程度,我把我的車,我把我的算法在這里面,就相當(dāng)于他在這個(gè)環(huán)境下跑一天等于你在真實(shí)世界里跑好幾年的訓(xùn)練速度,那時(shí)候會(huì)非??臁?/p>
所以,我覺得VLA現(xiàn)在可能看起來很慢,就像去年端到端一樣,其實(shí)端到端已經(jīng)非??炝耍瑥?021年我們走到端到端走了3年多時(shí)間,其實(shí)還是站在巨人的肩膀上,如果再往前走,整個(gè)行業(yè)如果從規(guī)則算法走到端到端的話,我可以說走了10年左右,但是從端到端開始迭代會(huì)非常快,因?yàn)槟菚r(shí)候整個(gè)工程、整個(gè)數(shù)據(jù)都會(huì)成熟起來,到VLA,我認(rèn)為也是這樣一個(gè)速度,大家可能現(xiàn)在感覺VLA還沒有什么感覺,就是做了一個(gè)比端到端稍微好一點(diǎn)的一個(gè)感受,但一年之后你看到一個(gè)1000MPI的產(chǎn)品放在你面前的時(shí)候,相信大家都會(huì)覺得自動(dòng)駕駛真的來了。我相信在這里面真正有技術(shù)、真正有能力、真正有責(zé)任心的企業(yè)一定會(huì)率先跑出來,我相信理想肯定是這里面第一個(gè)會(huì)走出來的。
問:提問一個(gè)關(guān)于移動(dòng)空間的問題,我們今天體驗(yàn)的版本MEGA移動(dòng)空間和i8的行車是基于同樣的模型嗎?
郎咸朋:是同樣的模型。
問:問題一:關(guān)于仿真數(shù)據(jù),有報(bào)道說特斯拉為了拿到更優(yōu)質(zhì)的數(shù)據(jù)或者沒有受過污染的數(shù)據(jù),請了幾百個(gè)老司機(jī)天天在外面開,通過這個(gè)數(shù)據(jù)來訓(xùn)練它的模型,而我們現(xiàn)在把大量的精力都放在了仿真上,我們有沒有類似這種讓專門的老司機(jī)給我們送“老司機(jī)數(shù)據(jù)”?問題二:用仿真學(xué)習(xí)的話,從第一輪訓(xùn)練出一個(gè)實(shí)習(xí)司機(jī),到第二輪就能訓(xùn)練出一個(gè)老司機(jī),這個(gè)過程大概要多久?是一瞬間就可以完成嗎?
湛逸飛:第一個(gè)問題,強(qiáng)化學(xué)習(xí)的過程其實(shí)就是每一輪每一輪的仿真,我們每一輪會(huì)給它一個(gè)打分,一個(gè)reward,這個(gè)reward會(huì)反向去改變模型里的一些參數(shù),這個(gè)模型參數(shù)改變以后,我們又會(huì)把它拿過來仿真,它再產(chǎn)生一個(gè)新的行為,這是一個(gè)循環(huán)交替的行為,至于什么時(shí)候結(jié)束,其實(shí)不確定,直到它通過了我們整個(gè)在仿真環(huán)境里的metrics,我們就會(huì)判斷這個(gè)場景的訓(xùn)練完成了,它已經(jīng)學(xué)會(huì)了這個(gè)場景,所以并不是一個(gè)瞬間完成的,也不是一個(gè)固定長度的,還可以理解為跟這個(gè)場景的難度是相關(guān)的。
郎咸朋:第一個(gè)問題,我覺得可能是傳言、聽說之類的吧。但我覺得我們最好的老司機(jī)就是我們的車主,我們都是取之于民,用之于民的。
我們有很大的精力在我們車主里去挑選老司機(jī)的數(shù)據(jù),不是老司機(jī)開的時(shí)時(shí)刻刻都是老司機(jī),也不是新手司機(jī)時(shí)時(shí)刻刻開的都不可用,主要看你怎么從沙里淘金的過程,我們的用戶數(shù)據(jù)是一個(gè)很大的金礦,但金礦里是摻著沙子的,看你怎么把這個(gè)金子淘出來,如果只讓一幫人給你掘金,可能太慢了,可能也不夠豐富。
問:大家都說多模態(tài)模型還沒有進(jìn)入所謂的GPT時(shí)刻,無論是對世界的理解還是數(shù)據(jù)的訓(xùn)練,雖然大家都模模糊糊看到一個(gè)方向,但具體怎么做沒有一個(gè)明確的解法,這時(shí)候你們需要做一個(gè)量產(chǎn)方案去推送到市場上,你覺得這個(gè)方案是一個(gè)足夠好的解法了嗎?以及它抵達(dá)所謂的GPT時(shí)刻還需要花多長時(shí)間?
詹錕:首先回答一下我們多模態(tài)之前說沒有達(dá)到GPT時(shí)刻,可能指的是VLA這種物理AI,而不是VLM,其實(shí)現(xiàn)在VLM已經(jīng)完全滿足一個(gè)非常創(chuàng)新的GPT時(shí)刻,如果針對物理AI,現(xiàn)在的VLA,特別是在機(jī)器人領(lǐng)域、具身領(lǐng)域可能并沒有達(dá)到GPT時(shí)刻,因?yàn)樗鼪]有那么好的泛化能力,但在自動(dòng)駕駛領(lǐng)域,其實(shí)VLA解決的是一個(gè)相對統(tǒng)一的駕駛范式,是有機(jī)會(huì)用這個(gè)方式做到一個(gè)GPT時(shí)刻的,我們也非常承認(rèn)現(xiàn)在的VLA是第一版本,也是業(yè)界第一個(gè)往量產(chǎn)上要推的VLA版本,肯定會(huì)存在一些缺陷。
這個(gè)重大嘗試是想說我們想用VLA來探索一個(gè)新的路徑,它里面有很多嘗試的地方,有很多需要去落地的探索的點(diǎn),不是說不能做到GPT時(shí)刻就一定不能去做量產(chǎn)落地,它有很多細(xì)節(jié),包括我們的評測、仿真去驗(yàn)證它能不能做到量產(chǎn)落地,能不能給用戶“更好、更舒適、更安全”的體驗(yàn),做到以上三點(diǎn)就可以給用戶更好的交付。
GPT時(shí)刻更多指的是具有很強(qiáng)的通用性和泛化性,在這個(gè)過程可能隨著我們自動(dòng)駕駛往空間機(jī)器人或往其它具身領(lǐng)域去拓展的時(shí)候會(huì)產(chǎn)生出更強(qiáng)的泛化能力或者更綜合的統(tǒng)籌能力,我們也會(huì)在落地以后隨著“用戶數(shù)據(jù)迭代、場景豐富、思維邏輯性越來越多、語音交互越來越多”逐漸往ChatGPT時(shí)刻遷移,不是一定要達(dá)到GPT時(shí)刻才能做一個(gè)自動(dòng)駕駛模型,比如我們落地了VLA以后不能往ChatGPT去遷移,這是我們VLA落地第一個(gè)版本后逐漸會(huì)往“更豐富、更通用、更多樣化”能力去做的VLA模型。
像郎博說的到明年我們?nèi)绻搅?000MPI,可能會(huì)給用戶感覺真的到了VLA的ChatGPT的時(shí)刻。
(本文作者長期關(guān)注理想汽車,如對理想汽車有興趣,歡迎添加作者微信Hugh-wangruihao交流。)
來源:紅網(wǎng)
作者:裔麗澤
編輯:洪安志
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。