單位年會(huì),領(lǐng)導(dǎo)讓你采購(gòu)水果,并暗示你去他指定的一家去采購(gòu),但那家水果店水果經(jīng)常積壓不新鮮,你怎么辦?
車(chē)東西(公眾號(hào):chedongxi)作者|頤圣國(guó)仁編輯|志豪
車(chē)東西8月1日消息,日前,理想舉辦了理想i8+VLA司機(jī)智駕體驗(yàn)活動(dòng),詳細(xì)解讀了理想汽車(chē)在VLA方面的進(jìn)展和思考。
在本次活動(dòng)中,理想汽車(chē)自動(dòng)駕駛研發(fā)高級(jí)副總裁郎咸朋首先介紹了理想汽車(chē)在VLA模型上的相關(guān)進(jìn)展。
自2021年起,理想汽車(chē)就開(kāi)始自主研發(fā)輔助駕駛系統(tǒng),歷經(jīng)五年技術(shù)迭代,從早期的基于規(guī)則算法的輕圖、無(wú)圖方案,逐步發(fā)展到端到端+VLM(視覺(jué)語(yǔ)言模型)架構(gòu),并最終推出VLA(Vision-Language-Action)司機(jī)大模型。
▲理想汽車(chē)技術(shù)迭代路線
這一演進(jìn)體現(xiàn)了從“工程師驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”再到“模型自我學(xué)習(xí)”的技術(shù)躍遷。
在“人工作業(yè)”階段,系統(tǒng)依賴(lài)工程師設(shè)計(jì)規(guī)則和編程實(shí)現(xiàn),難以覆蓋所有極端場(chǎng)景(cornercases)。
而“AI時(shí)代”的端到端+VLM架構(gòu)通過(guò)模仿人類(lèi)駕駛行為進(jìn)行訓(xùn)練,性能提升依賴(lài)于數(shù)據(jù)的規(guī)模與質(zhì)量。
VLA則進(jìn)一步引入強(qiáng)化學(xué)習(xí)與仿真環(huán)境,使模型具備自我迭代能力,突破了傳統(tǒng)端到端架構(gòu)在邏輯推理與場(chǎng)景理解方面的瓶頸。
會(huì)后,車(chē)東西總編張國(guó)仁及媒體同行們也同郎咸朋、理想汽車(chē)自動(dòng)駕駛高級(jí)算法專(zhuān)家詹錕和理想汽車(chē)自動(dòng)駕駛高級(jí)算法專(zhuān)家湛逸飛進(jìn)行了深度對(duì)話,針對(duì)理想汽車(chē)在量產(chǎn)能力、未來(lái)進(jìn)展等方面進(jìn)行了探討。
可見(jiàn),理想汽車(chē)還是走在了自動(dòng)駕駛AI應(yīng)用的前端。
一、具備四項(xiàng)核心能力數(shù)據(jù)與訓(xùn)練體系完備
從VLA模型架構(gòu)與核心能力來(lái)看,理想汽車(chē)的VLA模型由三大智能模塊構(gòu)成:
▲VLA模型架構(gòu)
即,V(Vision)空間智能,通過(guò)視覺(jué)傳感器與導(dǎo)航信息輸入,模型具備對(duì)空間的精細(xì)感知與理解能力。
L(Language)語(yǔ)言智能,將空間理解轉(zhuǎn)化為高度壓縮的語(yǔ)言編碼,支持模型內(nèi)部推理與外部人機(jī)交互。
A(Action)行為策略,基于場(chǎng)景編碼生成最終駕駛行為,采用Diffusion軌跡生成技術(shù),輸出更自然、平滑的行車(chē)路徑。
從核心能力來(lái)看,VLA具備以下四項(xiàng)核心能力:
首先是思維能力,系統(tǒng)通過(guò)CoT(ChainofThought)推理鏈實(shí)現(xiàn)實(shí)時(shí)決策,推理頻率達(dá)到10Hz以上。
其次是溝通能力,系統(tǒng)支持語(yǔ)音交互,用戶(hù)可通過(guò)自然語(yǔ)言下達(dá)駕駛指令。
然后是記憶能力,大模型可記住用戶(hù)偏好與歷史指令,實(shí)現(xiàn)個(gè)性化駕駛體驗(yàn)。
最后是自主學(xué)習(xí)能力,系統(tǒng)在仿真環(huán)境中進(jìn)行無(wú)監(jiān)督強(qiáng)化學(xué)習(xí),持續(xù)優(yōu)化模型性能。
▲理想在VLA模型上的優(yōu)勢(shì)
但需要指出的是,VLA模型架構(gòu)是方法論,該模型的性能是需要建立在龐大的數(shù)據(jù)基礎(chǔ)之上的。
在真實(shí)數(shù)據(jù)層面,截至2025年7月,理想汽車(chē)已累計(jì)采集12億公里有效駕駛數(shù)據(jù),覆蓋多樣化場(chǎng)景。
在生成數(shù)據(jù)方面,理想汽車(chē)通過(guò)世界模型重建與生成場(chǎng)景,補(bǔ)充長(zhǎng)尾與極端場(chǎng)景數(shù)據(jù),提升數(shù)據(jù)分布均衡性。
此外,理想汽車(chē)還引入了超強(qiáng)對(duì)齊機(jī)制,在數(shù)據(jù)增長(zhǎng)趨緩后,通過(guò)人為篩選與生成高質(zhì)量數(shù)據(jù),進(jìn)一步提升模型性能。
與此同時(shí),理想汽車(chē)構(gòu)建了高效的仿真測(cè)試體系,2025年上半年仿真測(cè)試?yán)锍踢_(dá)4009萬(wàn)公里,遠(yuǎn)超實(shí)車(chē)測(cè)試(2萬(wàn)公里),測(cè)試成本顯著降低,效率大幅提升。
更值得一提的是,理想汽車(chē)在算力與工程落地方面的優(yōu)勢(shì)也很明顯。
▲理想VLA模型算力資源
單純從算力資源的角度來(lái)看,理想汽車(chē)目前總算力達(dá)13EFLOPS,其中3EFLOPS用于推理,10EFLOPS用于訓(xùn)練。
與此同時(shí),理想汽車(chē)在工程曾面實(shí)現(xiàn)了INT8與FP8量化優(yōu)化,支持在Thor-U與Orin-X芯片上跨平臺(tái)部署,推理性能提升顯著,還成功在量產(chǎn)車(chē)型上部署4BMoE(混合專(zhuān)家模型)結(jié)構(gòu)的VLA模型,實(shí)現(xiàn)高效運(yùn)行。
二、車(chē)東西總編對(duì)話理想智駕高管VLA語(yǔ)言交互的現(xiàn)狀、挑戰(zhàn)與未來(lái)演進(jìn)路徑
在活動(dòng)中,車(chē)東西總編張國(guó)仁也同理想汽車(chē)自動(dòng)駕駛研發(fā)高級(jí)副總裁郎咸朋博士、理想汽車(chē)自動(dòng)駕駛高級(jí)算法專(zhuān)家詹錕和理想汽車(chē)自動(dòng)駕駛高級(jí)算法專(zhuān)家湛逸飛進(jìn)行了深度對(duì)話,仔細(xì)探討了VLA語(yǔ)言交互的現(xiàn)狀、挑戰(zhàn)與未來(lái)演進(jìn)路徑。
理想方面認(rèn)為,在理想汽車(chē)的VLA模型中,語(yǔ)言交互被視為構(gòu)建“更好家庭司機(jī)”體驗(yàn)的關(guān)鍵組成部分。當(dāng)前版本已初步具備語(yǔ)音控制能力,但在理解復(fù)雜指令、判斷用戶(hù)意圖等方面仍存在提升空間。
詹錕指出,當(dāng)前系統(tǒng)在執(zhí)行語(yǔ)音指令時(shí)需謹(jǐn)慎區(qū)分用戶(hù)意圖,例如判斷指令是用于控制車(chē)輛行駛、調(diào)節(jié)空調(diào),還是操作娛樂(lè)系統(tǒng)。為避免誤操作,系統(tǒng)在準(zhǔn)確性與響應(yīng)性之間做出權(quán)衡,這也導(dǎo)致部分復(fù)雜指令尚未實(shí)現(xiàn)“怎么說(shuō)就怎么做”的自然交互體驗(yàn)。
▲VLA和端到端模型的決策對(duì)比
未來(lái),理想計(jì)劃構(gòu)建一個(gè)統(tǒng)一的“車(chē)載大腦”,實(shí)現(xiàn)對(duì)整車(chē)系統(tǒng)的全面理解與協(xié)調(diào)控制。這一系統(tǒng)將整合智駕、車(chē)控、車(chē)機(jī)等多個(gè)子系統(tǒng)的語(yǔ)義解析能力,提升對(duì)用戶(hù)語(yǔ)言的上下文理解與執(zhí)行精度。
同時(shí),隨著數(shù)據(jù)積累與模型迭代的加速,VLA的語(yǔ)言泛化能力也將快速提升,類(lèi)似于早期大語(yǔ)言模型從“笨拙”到“聰明”的演進(jìn)路徑。通過(guò)持續(xù)收集用戶(hù)反饋與交互數(shù)據(jù),VLA將逐步實(shí)現(xiàn)更自然、精準(zhǔn)的語(yǔ)音交互體驗(yàn)。
在個(gè)性化方面,VLA的強(qiáng)化學(xué)習(xí)機(jī)制為“司機(jī)性格”的定制化提供了技術(shù)基礎(chǔ)。郎咸朋表示,未來(lái)VLA將不再提供統(tǒng)一的駕駛風(fēng)格,而是根據(jù)不同用戶(hù)的駕駛習(xí)慣與偏好,逐步形成“越開(kāi)越像你”的個(gè)性化駕駛體驗(yàn)。
這種能力超越了傳統(tǒng)端到端模型的模仿學(xué)習(xí)范式,使得每一輛車(chē)都能成為用戶(hù)專(zhuān)屬的“智能司機(jī)”。VLA的演進(jìn)不僅是技術(shù)的升級(jí),更是用戶(hù)體驗(yàn)從標(biāo)準(zhǔn)化向個(gè)性化轉(zhuǎn)變的重要一步。
三、適配經(jīng)驗(yàn)豐富VLA模型的技術(shù)演進(jìn)與工程落地
在媒體群訪中,也有不少媒體針對(duì)VLA模型的技術(shù)演進(jìn)與工程落地提問(wèn)。
理想汽車(chē)方面提到,其在自動(dòng)駕駛技術(shù)的演進(jìn)中,率先提出并部署了VLA(Vision-Language-Action)大模型,標(biāo)志著從傳統(tǒng)規(guī)則算法、端到端模型向具身智能架構(gòu)的躍遷。
VLA模型的核心創(chuàng)新在于引入語(yǔ)言模型作為“思考中樞”,使自動(dòng)駕駛系統(tǒng)具備更強(qiáng)的理解與推理能力。通過(guò)自研的8×0.4BMoE架構(gòu),理想實(shí)現(xiàn)了在邊緣端芯片上部署大模型的突破,推理幀率達(dá)到10Hz,遠(yuǎn)超此前端到端模型的3Hz。
▲理想的工程部署能力
工程團(tuán)隊(duì)通過(guò)底層優(yōu)化、算子重構(gòu)、精度壓縮(如FP8、INT4)等手段,最大限度壓榨芯片性能,使得VLA模型在Orin和Thor平臺(tái)上均可高效運(yùn)行。此外,理想還通過(guò)大模型蒸餾技術(shù),將32B云端模型的能力遷移至車(chē)端小模型,確保推理效率與模型容量的平衡。
值得一提的是,理想在芯片部署方面積累了豐富的經(jīng)驗(yàn)。早在早期階段,理想就與地平線合作,在J3芯片上部署高速NOA系統(tǒng)。盡管J3芯片的適配存在挑戰(zhàn),但理想與地平線團(tuán)隊(duì)通過(guò)緊密協(xié)作、現(xiàn)場(chǎng)調(diào)試和算法適配,成功實(shí)現(xiàn)了量產(chǎn)落地。
這一階段的工程積累為后續(xù)在英偉達(dá)Orin芯片上部署大模型打下了堅(jiān)實(shí)基礎(chǔ)。理想也是首批將Orin芯片量產(chǎn)上車(chē)的車(chē)企之一,并在Thor芯片上進(jìn)一步實(shí)現(xiàn)了VLA模型的高頻部署。芯片適配過(guò)程中,理想不僅對(duì)CUDA底層進(jìn)行了魔改,還重寫(xiě)了PTX指令,展現(xiàn)出極強(qiáng)的底層工程能力。
在研發(fā)流程上,理想同步推進(jìn)了世界模型仿真系統(tǒng)的建設(shè),替代大量實(shí)車(chē)測(cè)試,顯著提升了訓(xùn)練效率與安全性。通過(guò)構(gòu)建高保真仿真環(huán)境,理想實(shí)現(xiàn)了日均30萬(wàn)公里、累計(jì)超4000萬(wàn)公里的虛擬測(cè)試,仿真一致性達(dá)99.9%以上。
強(qiáng)化學(xué)習(xí)成為VLA訓(xùn)練的關(guān)鍵路徑,用戶(hù)在真實(shí)駕駛中的接管行為被轉(zhuǎn)化為反饋信號(hào),進(jìn)一步優(yōu)化模型策略。OTA7.5版本的“超級(jí)對(duì)齊”機(jī)制也為VLA提供了大量評(píng)測(cè)場(chǎng)景與規(guī)則約束,確保模型輸出更符合人類(lèi)駕駛習(xí)慣與法規(guī)要求。
理想強(qiáng)調(diào),VLA的成功落地并非一蹴而就,而是建立在多年數(shù)據(jù)閉環(huán)、算力積累與工程實(shí)踐的基礎(chǔ)之上。其技術(shù)壁壘不僅體現(xiàn)在模型本身,更體現(xiàn)在仿真系統(tǒng)、數(shù)據(jù)治理、芯片適配等全鏈條能力的協(xié)同進(jìn)化。
四、VLA產(chǎn)品價(jià)值重構(gòu)商業(yè)化前景優(yōu)于端到端
在關(guān)于VLA的產(chǎn)品價(jià)值、用戶(hù)體驗(yàn)與未來(lái)展望方面,理想汽車(chē)方面指出,VLA模型的推出不僅是技術(shù)突破,更是理想汽車(chē)對(duì)“家庭司機(jī)”角色的重新定義。
通過(guò)語(yǔ)言交互與思維鏈展示,VLA賦予車(chē)輛更強(qiáng)的可解釋性與信任感,提升用戶(hù)對(duì)自動(dòng)駕駛系統(tǒng)的接受度。
在實(shí)際體驗(yàn)中,VLA優(yōu)先優(yōu)化了安全性與舒適性?xún)蓚€(gè)核心指標(biāo)。理想提出以MPA(百萬(wàn)公里事故率)和MPI(百萬(wàn)公里接管率)為衡量標(biāo)準(zhǔn),目標(biāo)是實(shí)現(xiàn)比人類(lèi)駕駛高10倍的安全性。
在舒適性方面,VLA顯著減少了急剎、重剎等不適行為,提升了用戶(hù)對(duì)輔助駕駛的使用意愿。效率則被置于安全與舒適之后,體現(xiàn)出理想對(duì)用戶(hù)體驗(yàn)的長(zhǎng)期主義思維。通過(guò)對(duì)用戶(hù)駕駛風(fēng)格的分析與個(gè)性化強(qiáng)化訓(xùn)練,VLA逐步實(shí)現(xiàn)“千人千面”的駕駛體驗(yàn),真正成為“更好的家庭司機(jī)”。
▲不同技術(shù)能力的學(xué)習(xí)MPI
在商業(yè)化路徑上,理想認(rèn)為VLA的落地速度將遠(yuǎn)超傳統(tǒng)端到端模型,預(yù)計(jì)在未來(lái)一年內(nèi)實(shí)現(xiàn)從100MPI到1000MPI的躍升。盡管當(dāng)前VLA仍處于技術(shù)周期初期,但其潛力已在i8車(chē)型中初步展現(xiàn)。
理想汽車(chē)計(jì)劃將VLA能力同步推送至所有搭載OrinX及以上芯片的車(chē)型,確保用戶(hù)體驗(yàn)的一致性。未來(lái),VLA不僅將拓展至更多車(chē)型與服務(wù)場(chǎng)景,還可能成為理想對(duì)外輸出的核心技術(shù)資產(chǎn)。
盡管當(dāng)前尚未明確開(kāi)源或商業(yè)授權(quán)計(jì)劃,但理想已表達(dá)出推動(dòng)行業(yè)發(fā)展的開(kāi)放態(tài)度。更長(zhǎng)遠(yuǎn)來(lái)看,VLA被視為具身智能的通用技術(shù)框架,有望延伸至機(jī)器人、智能空間等更廣泛的物理AI應(yīng)用領(lǐng)域。
理想汽車(chē)方面堅(jiān)信,隨著數(shù)據(jù)、算力與算法的持續(xù)演進(jìn),VLA終將迎來(lái)屬于自己的“GPT時(shí)刻”,成為推動(dòng)自動(dòng)駕駛從輔助走向自主的關(guān)鍵引擎。
結(jié)語(yǔ):VLA未來(lái)已來(lái)
隨著理想汽車(chē)VLA模型的持續(xù)演進(jìn),我們正在見(jiàn)證自動(dòng)駕駛技術(shù)從“規(guī)則驅(qū)動(dòng)”向“智能涌現(xiàn)”的深刻變革。
VLA不僅是技術(shù)架構(gòu)的創(chuàng)新,更是對(duì)“家庭司機(jī)”角色的重新定義。它融合了視覺(jué)、語(yǔ)言與行為策略三大智能模塊,構(gòu)建出具備思維、溝通、記憶與學(xué)習(xí)能力的智能駕駛系統(tǒng)。
從數(shù)據(jù)采集到仿真訓(xùn)練,從芯片適配到工程落地,理想汽車(chē)在每一個(gè)環(huán)節(jié)都展現(xiàn)出深厚的技術(shù)積累與系統(tǒng)化能力。VLA的推出不僅提升了自動(dòng)駕駛的安全性與舒適性,更開(kāi)啟了個(gè)性化智能駕駛的新篇章。
喜歡看靈異驚悚小說(shuō)的看官,幫大家找了幾部9.5分以上的
人氣巨獻(xiàn)《最后一個(gè)女?dāng)繆y師》,錯(cuò)過(guò)它是你的遺憾!
百萬(wàn)次生死輪回,無(wú)心女孩尋解咒之謎,全程高能燒腦!