鄔清怡
7月29日晚上,預(yù)熱已久的理想i8終于上市,正好卡在理想成立十周年的節(jié)點(diǎn)。
i8總共發(fā)布了三個(gè)版本,售價(jià)32.18-36.98萬元。先來看看具體的價(jià)格和配置:
Pro版32.18萬,Max版34.98萬,Ultra版36.98萬。
雙電機(jī)智能四驅(qū)、雙腔魔毯空氣懸架、座椅舒適性配置、前排屏幕、HUD、激光雷達(dá)等配置均為全系標(biāo)配。
Pro版搭載的是理想輔助駕駛ADPro,Max版和Ultra版搭載的則是ADMax。
這場(chǎng)發(fā)布會(huì)信息量很密集,i8的產(chǎn)品發(fā)布、VLA司機(jī)大模型、理想同學(xué)智能體(Agent)、超充網(wǎng)絡(luò)被塞在了兩個(gè)小時(shí)的演講里。
發(fā)布會(huì)的重頭戲在于車,更是在于i8首發(fā)的輔助駕駛功能有大幅度升級(jí)。
理想的VLA(視覺-語言-動(dòng)作模型)與i8同步發(fā)布,讓i8成了第一款搭載VLA司機(jī)大模型的理想車型。8月份,VLA就會(huì)在i8上交付。
所有ADMax車主也會(huì)在8月同步OTA,包含了Thor-U平臺(tái)與Orin-X平臺(tái)的車主。另外,搭載J6M的ADPro將在年底全量推送城市NOA。
就在發(fā)布會(huì)的前幾天,我們不僅替大家搶先試乘試駕了具備VLA能力的理想MEGA以及理想i8,并且和郎咸朋及其團(tuán)隊(duì)進(jìn)行了一次3小時(shí)左右的深入交流。關(guān)于VLA是什么、它能做到什么、以及理想是怎么做出來的,這些問題有了更為清晰的答案。
VLA能力的提升,集中體現(xiàn)在三點(diǎn):更懂語義、更擅長推理、更接近人類駕駛直覺。具體表現(xiàn)在:
行駛中能聽懂「靠邊停一下」「往前走50米」「快一點(diǎn)」這類自然語言指令,并據(jù)此完成操作;
可以根據(jù)過往記憶設(shè)定特定路段的速度;
能根據(jù)語音指令找到目的地,比如「幫我找到最近的星巴克」;
在復(fù)雜路況下,它也能判斷通行風(fēng)險(xiǎn)、選對(duì)道路,主動(dòng)規(guī)避障礙。
在理想看來,VLA帶來的不再只是更好用的輔助駕駛,更是換了一個(gè)能聽懂人話、會(huì)動(dòng)腦子的「司機(jī)」。
這是輔助駕駛領(lǐng)域的一次跳躍,理想率先進(jìn)入了無人區(qū)。
01
為什么是VLA
過去幾年,輔助駕駛經(jīng)歷了三種架構(gòu)的迭代:規(guī)則算法、端到端、VLA,這是一個(gè)從指令控制,到模仿行為,再到理解意圖的過程。每一代技術(shù)都在不停地提升算力、平均接管里程,本質(zhì)上是要不斷接近人類的駕駛方式。
7月25日,理想汽車自動(dòng)駕駛研發(fā)高級(jí)副總裁郎咸朋博士在跟媒體交流的過程中分享了理想關(guān)于VLA的研發(fā)歷程和思考邏輯。郎咸朋認(rèn)為,輔助駕駛的人工時(shí)代到現(xiàn)在AI時(shí)代的分水嶺,是從無圖到端到端。在原來輕圖、NPN或者無圖的人工時(shí)代,輔助駕駛的核心是規(guī)則算法?!敢粋€(gè)典型場(chǎng)景就是工程師他會(huì)自己去設(shè)計(jì)算法,并且通過編程來控制車輛運(yùn)作、運(yùn)行。決定人工時(shí)代性能的核心就是工程師,人的經(jīng)驗(yàn)、編程能力、算法能力決定了這個(gè)系統(tǒng)是不是性能好。」
人工時(shí)代的局限性在于,單靠人力難以解決所有場(chǎng)景,用郎咸朋的話說,很多場(chǎng)景是「按下葫蘆起來瓢」。于是輔助駕駛進(jìn)入了端到端時(shí)代。
端到端+VLM(視覺-語言大模型)的核心是模仿學(xué)習(xí),用人類駕駛的數(shù)據(jù)來訓(xùn)練模型。這個(gè)技術(shù)階段,決定性的因素就是「數(shù)據(jù)」。數(shù)據(jù)多,覆蓋的場(chǎng)景全,數(shù)據(jù)質(zhì)量好——最好是來自老司機(jī),這時(shí)訓(xùn)練模型的性能就會(huì)非常好。
但模仿學(xué)習(xí)終究有上限。理想是最早一批意識(shí)到這一點(diǎn)并轉(zhuǎn)向強(qiáng)化學(xué)習(xí)路線的企業(yè)之一。相比過去只依賴真實(shí)駕駛數(shù)據(jù),VLA采用生成數(shù)據(jù)和仿真環(huán)境結(jié)合的方式,讓模型能在無風(fēng)險(xiǎn)、可控的虛擬世界中自主進(jìn)化。這套思路如今也正在被更多車企采納,VLA正成為智能駕駛的新共識(shí)。
郎咸朋解釋,需要生成數(shù)據(jù)來訓(xùn)練模型的原因在于,人類駕駛數(shù)據(jù)存在嚴(yán)重的分布不均,大多集中在白天、晴天、正常通勤等常規(guī)場(chǎng)景,真正復(fù)雜或危險(xiǎn)的工況數(shù)據(jù)稀缺且難以采集。而訓(xùn)練具備真實(shí)決策能力的模型,恰恰需要這些邊緣與極端場(chǎng)景。
這就要求引入合成數(shù)據(jù)和高質(zhì)量仿真環(huán)境,用生成式方法構(gòu)建覆蓋更全、分布更廣的數(shù)據(jù)集,同時(shí)不斷評(píng)測(cè)模型表現(xiàn)。最終決定模型性能提升速度的關(guān)鍵,不是收集了多少真實(shí)數(shù)據(jù),而是仿真迭代的效率。相比傳統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)方式,這是一種更具主動(dòng)性的訓(xùn)練方式。
合成數(shù)據(jù)的訓(xùn)練方式也直接帶來了成本的下降。據(jù)郎咸朋介紹,2023年,一年用實(shí)車的有效測(cè)試?yán)锍檀蟾庞?57萬公里,每公里成本是18元。而到了今年上半年,總共測(cè)了4,000萬公里,其中實(shí)車只有2萬公里,測(cè)試成本來到了平均每公里5毛錢?!妇褪歉秱€(gè)電費(fèi)和服務(wù)器的費(fèi)用,并且測(cè)試質(zhì)量還高,所有的場(chǎng)景都能舉一反三,可以完全復(fù)測(cè),分毫不差?!?/p>
接下來理想要回答的問題是:VLA模型到底強(qiáng)在哪?為什么要在端到端+VLM之后做VLA?
VLA的全稱是Vision-Language-Action,是視覺-語言-動(dòng)作模型。在VLA模型中,V承擔(dān)著空間感知的職責(zé),通過攝像頭、導(dǎo)航等多種輸入,構(gòu)建出對(duì)周圍環(huán)境的理解;L則把這種感知翻譯成清晰的語言;A指的是根據(jù)對(duì)場(chǎng)景的編碼,生成行為策略,也就是模型該怎么開車。
簡(jiǎn)單來說,VLA就是一個(gè)能聽懂人話、看懂圖像并結(jié)合兩種信息行動(dòng)的模型,讓人無需通過特定語音、文字指令或按鈕,而是通過自然語言去控制包括機(jī)器人、汽車在內(nèi)的智能體,能夠獨(dú)立執(zhí)行任務(wù)、承擔(dān)責(zé)任。
它可以聽懂人話,比如「開慢點(diǎn)」「換到右邊車道」;可以記住偏好,比如之前在這條路上都是開80km/h;也能像老司機(jī)一樣,提前做出防御性操作,比如在橋洞前減速,避免突然沖出來的車輛。而這些能力靠傳統(tǒng)端到端模型無法實(shí)現(xiàn)。
郎咸朋說,端到端架構(gòu)不具備深度思考能力,頂多算是一個(gè)應(yīng)激反應(yīng),輸入后模型給一個(gè)輸出,背后沒有深度邏輯。「就像猴子開車一樣。喂猴子一些香蕉,它可能會(huì)按照你的意圖做一些行為,但并不知道自己為什么要做這些行為,一敲鑼它就過來,一打鼓它就跳舞,但不知道為什么要跳舞?!?/p>
所以,即使理想后來嘗試在端到端中加入VLM,試圖讓VLM提供更好的決策,還是會(huì)出現(xiàn)端到端無法理解VLM在說什么的問題。
而VLA的核心能力可以總結(jié)為:能思考、能溝通、能記憶、能自我提升?;谶@幾個(gè)能力,產(chǎn)品上帶給用戶的實(shí)際體驗(yàn)是安全、舒適、高超的駕駛技巧和自然的交互能力。在i8這款產(chǎn)品上,VLA的能力提升帶來了整個(gè)產(chǎn)品體驗(yàn)的升級(jí)。
而理想也把對(duì)輔助駕駛的功能定位,從安全、能用的「職業(yè)司機(jī)」,進(jìn)化成了「給所有人提供一個(gè)更好的家庭司機(jī)」。
這就要求輔助駕駛在功能價(jià)值之外,還要滿足乘員的情緒價(jià)值訴求。郎咸朋說:「你自己在車上和家人在車上的時(shí)候,開車方式是不一樣的,你肯定會(huì)開得更安全、舒適,并且會(huì)根據(jù)家人的偏好來開車?!?/p>
i8發(fā)布會(huì)之前,現(xiàn)場(chǎng)放了一段體驗(yàn)VLA的短片,李想在其中承認(rèn),之前對(duì)輔助駕駛要成為「老司機(jī)」的定義有點(diǎn)問題?!咐纤緳C(jī)是開的人舒服,乘的人不一定舒服。后來我們做了一個(gè)新的定義:職業(yè)司機(jī),按照國賓司機(jī)的標(biāo)準(zhǔn)來,這樣所有人就都不挑了?!?/p>
我們?cè)谠嚦嗽囻{過程中也發(fā)現(xiàn),「國賓司機(jī)」這套新標(biāo)準(zhǔn)并不是說說而已。試乘現(xiàn)場(chǎng)提供的VLA穿梭巴士體驗(yàn)并不復(fù)雜,主要在理想園區(qū)內(nèi)進(jìn)行,時(shí)速約為10公里,但已經(jīng)可以通過語音控制完成靠邊停車、左右轉(zhuǎn)向和提速等操作。在車輛處于無人狀態(tài)下,它可以模擬完成「去咖啡店、快遞站取件后自動(dòng)返回」等日常任務(wù)。
更值得注意的是,在面對(duì)極窄通道路口時(shí),VLA展現(xiàn)出了相當(dāng)穩(wěn)定的通過能力。也可以駛出園區(qū),接入公共道路前往下一個(gè)目的地。整體表現(xiàn)與今年早些時(shí)候L9試驗(yàn)車上的司機(jī)Agent版本相近,盡管稱不上驚艷,但在執(zhí)行精度和動(dòng)作節(jié)奏上確實(shí)更穩(wěn)了。
02
理想注定第一個(gè)做出VLA?
目前,VLA已經(jīng)成為智能駕駛行業(yè)的新方向。除了理想之外,小米、小鵬、吉利等多家整車企業(yè),以及元戎啟行、Waymo等供應(yīng)商和自動(dòng)駕駛公司也都在不同程度上推進(jìn)類似的架構(gòu)轉(zhuǎn)型。然而在實(shí)際落地速度上,理想顯然走在了最前面。
李想在i8的發(fā)布會(huì)上給出的時(shí)間表是:
8月份在i8上交付VLA;
所有ADMax車主也會(huì)在8月同步OTA,包含了Thor-U平臺(tái)與Orin-X平臺(tái)的車主。
這并不是偶然發(fā)生的結(jié)果。
在郎咸朋看來,VLA并不是一套跳級(jí)的打法,而是端到端之后的自然發(fā)展。如果沒有經(jīng)歷過端到端階段對(duì)模型感知、決策、控制等環(huán)節(jié)的完整訓(xùn)練,就無法一步跨入VLA。
郎咸朋在采訪中表示,雖然VLA的數(shù)據(jù)、算法等可能跟之前不太一樣,但是這些仍然是要建立在之前的基礎(chǔ)上的?!溉绻麤]有完整的通過實(shí)車采集的數(shù)據(jù)閉環(huán),是沒有數(shù)據(jù)能夠去訓(xùn)練世界模型的。理想汽車之所以能夠落地VLA模型,是因?yàn)槲覀冇?2億(公里)數(shù)據(jù),只有在充分了解這些數(shù)據(jù)的基礎(chǔ)上,才能夠更好的生成數(shù)據(jù)?!?/p>
而為什么是理想最先做出VLA,郎咸朋的答案是,「數(shù)據(jù)、算法、算力和工程,四個(gè)方向我們都很強(qiáng)」。
理想在算法上的核心能力首先體現(xiàn)在對(duì)數(shù)據(jù)的理解與利用上?!笖?shù)據(jù)不是誰都有,」郎咸朋表示,「到2025年7月份,我們已經(jīng)累計(jì)了12億公里的有效數(shù)據(jù)。這些數(shù)據(jù)得益于我們銷量的增長,我們車也賣出了130多萬輛?!?/p>
從2020年起,理想就系統(tǒng)性地按天氣、道路類型、交通狀態(tài)等維度細(xì)化標(biāo)簽,建立起一套覆蓋復(fù)雜工況和長尾場(chǎng)景的數(shù)據(jù)體系。郎咸朋表示,「做到1,000萬Clips或者2,000萬Clips,并不困難,但能夠弄出這么多類型、這么多有價(jià)值的數(shù)據(jù),這是我們的優(yōu)勢(shì)之一。我們的1,000萬Clips由很多類別的數(shù)據(jù)構(gòu)成,并且包含很多精心挑選的數(shù)據(jù)。」
當(dāng)傳統(tǒng)實(shí)車數(shù)據(jù)無法再提供更多的提升,理想又大規(guī)模引入合成數(shù)據(jù)。借助世界模型技術(shù),理想能將歷史實(shí)錄場(chǎng)景進(jìn)行重建與擴(kuò)展——一個(gè)普通的高速ETC路口,可以被虛擬為雨夜、霧天、黃昏等多種工況,并衍生出輕微變形、干擾車輛等極端情況。VLA曾出錯(cuò)的場(chǎng)景會(huì)被自動(dòng)改編成一系列變體,不斷循環(huán)訓(xùn)練。
郎咸朋在采訪中對(duì)仿真數(shù)據(jù)的效果表示非常自信:「我們現(xiàn)在的仿真效果完全可以媲美實(shí)車測(cè)試,現(xiàn)在的超級(jí)版本和理想i8的VLA版本中90%以上的測(cè)試都是仿真測(cè)試。從去年端到端版本我們就已經(jīng)開始進(jìn)行仿真測(cè)試的驗(yàn)證,目前我們認(rèn)為它的可靠性和有效性都很高,所以我們以此替代了實(shí)車測(cè)試。」
不過他也表示,仍有一些測(cè)試是無法替代的?!副热缬布途脺y(cè)試,但和性能相關(guān)的測(cè)試我們基本上會(huì)使用仿真測(cè)試替代,效果也非常好。」
支撐這套體系的是理想在推理與訓(xùn)練算力上的資源投入。郎咸朋介紹,當(dāng)前理想擁有總計(jì)13EFLOPS的訓(xùn)練平臺(tái),其中10EFLOPS分配給訓(xùn)練,3EFLOPS用于推理。推理能力的重要性在VLA時(shí)代被放大,因?yàn)槭澜缒P偷纳膳c場(chǎng)景擴(kuò)展都依賴推理性能,若沒有強(qiáng)大的推理卡,就無法開展真正有效的強(qiáng)化訓(xùn)練。據(jù)理想內(nèi)部估算,其目前所擁有的推理資源等效于3萬張英偉達(dá)L20的推理卡。
但算力并不代表可交付。VLA能否真正進(jìn)入車端,還需跨越工程落地這道門檻。過去一年,理想在芯片適配和模型壓縮方面持續(xù)發(fā)力:去年在Orin-X上成功部署2B模型,今年又在Thor-U芯片上實(shí)現(xiàn)4BMoE(混合專家)模型的部署,且推理精度從FP16壓縮至FP8和INT8。當(dāng)前VLA已適配Orin-X和Thor平臺(tái),未來還將向FP4推進(jìn),繼續(xù)壓榨算力的潛能。
郎咸朋提出了一個(gè)觀點(diǎn):「我們認(rèn)為上一代技術(shù)能力的上限,是下一代技術(shù)能力的起點(diǎn)?!惯@個(gè)觀點(diǎn)來自理想進(jìn)行輔助駕駛架構(gòu)迭代的實(shí)踐經(jīng)驗(yàn)。從2021年做到2024年,這個(gè)時(shí)期屬于規(guī)則時(shí)代,理想把(高速+城市)全場(chǎng)景的MPI(平均接管里程)做到了大約10公里,這也是端到端起步階段的數(shù)據(jù),現(xiàn)在端到端+VLM方案的MPI則來到了200公里左右。
「現(xiàn)在,如果MPI真正能提升到1,000公里,就意味著可能真的是兩三個(gè)月才接管一次,這可能意味著邁入到下一個(gè)時(shí)代了?!?/p>
03
VLA的ChatGPT時(shí)刻何時(shí)到來
7月25日,42號(hào)車庫和行業(yè)多家媒體與理想的自動(dòng)駕駛團(tuán)隊(duì)進(jìn)行了深入交流,接受采訪的有理想汽車自動(dòng)駕駛研發(fā)高級(jí)副總裁郎咸朋博士、理想汽車自動(dòng)駕駛高級(jí)算法專家詹錕和理想汽車自動(dòng)駕駛高級(jí)算法專家湛逸飛。
在這次采訪中,理想的自動(dòng)駕駛團(tuán)隊(duì)對(duì)于VLA的推理能力、現(xiàn)階段的指標(biāo)以及落地節(jié)奏等關(guān)鍵問題做出了回應(yīng)。他們透露,VLA背后最大的門檻其實(shí)是世界模型的仿真能力,別人想跟也很難一口氣補(bǔ)齊整條鏈路。以下是群訪的主要內(nèi)容,我們進(jìn)行了不改變?cè)獾?/p>
Q:VLA司機(jī)具備推理能力,并且表現(xiàn)更像人了,但是需要幾秒鐘的推理時(shí)間,請(qǐng)問在突發(fā)場(chǎng)景下,VLA司機(jī)是怎么進(jìn)行快思考的?
郎咸朋:您認(rèn)為思考過程很慢實(shí)際上是顯示的原因,本身推理速度是很快的,只是為了讓大家能夠看地更清楚我們摘取了一些重要的思考過程顯示出來。實(shí)際上現(xiàn)在VLA的推理幀率在10Hz左右,相比之前的VLM提升了三倍多,之前端到端的VLM部分是3Hz左右。
Q:您是如何判斷自動(dòng)駕駛落地的時(shí)間表?如何進(jìn)行商業(yè)變現(xiàn)?
郎咸朋:從技術(shù)層面看,我們認(rèn)為VLA模型是可以走向更高級(jí)別的自動(dòng)駕駛,但它現(xiàn)在處于起步階段,在這個(gè)技術(shù)周期里,起步階段VLA模型約等于端到端的上限,它還有很長一段路要走。但我認(rèn)為這個(gè)過程不會(huì)特別慢,因?yàn)槎说蕉藦?0MPI到現(xiàn)在100MPI只用了一年左右的時(shí)間,我相信VLA的迭代速度也會(huì)非???,可能我們明年坐在這兒的時(shí)候它已經(jīng)迭代到1,000MPI了。
商業(yè)變現(xiàn)的影響因素非常多,最核心的是國家的法律政策。理想汽車也在積極參與國家相關(guān)政策法規(guī)的討論小組,從技術(shù)上來看L4級(jí)別的自動(dòng)駕駛落地是非??斓?,但從商業(yè)角度上看,還有很多問題需要考慮,比如保險(xiǎn),事故之后的賠償?shù)取?/p>
Q:智能駕駛存在一個(gè)「不可能三角」,也就是效率、舒適和安全三個(gè)目標(biāo)之間是互相制約的,目前階段可能難以同時(shí)實(shí)現(xiàn)。請(qǐng)問理想汽車的VLA目前在當(dāng)前階段最先優(yōu)化的指標(biāo)是哪一個(gè)?剛剛提及到MPI,是否可以理解為目前理想汽車最終的指標(biāo)是提升安全性以有效減少接管?
郎咸朋:MPI是我們衡量的指標(biāo)之一,還有一個(gè)指標(biāo)是MPA,也就是指發(fā)生事故的里程,現(xiàn)在是300萬公里左右。理想車主的人駕數(shù)據(jù)是60萬公里左右出一次事故,而在使用輔助駕駛功能的情況下是350到400萬公里發(fā)生一次事故。這個(gè)里程數(shù)據(jù)我們還會(huì)持續(xù)提升,我們的目標(biāo)是將MPA能提升到人類駕駛的10倍,也就是比人駕安全10倍,我們希望在輔助駕駛功能下能夠做到600萬公里才出一次事故,但這必須等到VLA模型提升之后才能做到。
針對(duì)MPI,我們也做過分析,可能一些安全風(fēng)險(xiǎn)問題會(huì)導(dǎo)致接管,但有時(shí)候舒適度不好也會(huì)導(dǎo)致接管,比如急剎、重剎等,因?yàn)椴⒉灰欢看味紩?huì)遇到安全風(fēng)險(xiǎn),但是如果駕駛舒適度不好,用戶依然不想用輔助駕駛功能。因?yàn)镸PA可以衡量安全性,在MPI方面,除了安全性之外,我們重點(diǎn)提升了行車舒適度,如果體驗(yàn)了理想i8的輔助駕駛功能,會(huì)體驗(yàn)到舒適度比之前的版本有很大提升。
效率是排在安全和舒適之后的,比如走錯(cuò)路,雖然效率有所損失,但我們不會(huì)通過一些危險(xiǎn)的動(dòng)作立刻糾正,還是要在安全和舒適的基礎(chǔ)上去追求效率。
Q:您剛才講到從規(guī)則到端到端+VLM是比較大的技術(shù)路線革新,但VLA其實(shí)沒有顛覆端到端+VLM,所以是否可以理解成VLA是偏向于工程能力的創(chuàng)新?
詹錕:VLA不只是工程方面的創(chuàng)新,大家如果關(guān)注具身智能,會(huì)發(fā)現(xiàn)這波浪潮伴隨著大模型對(duì)物理世界的應(yīng)用,這本質(zhì)就是提出了一個(gè)VLA算法,我們的VLA模型就是想把具身智能的思想和路徑引用在自動(dòng)駕駛領(lǐng)域。我們是最早提出,也是最早開始實(shí)踐的。VLA也是一種端到端,因?yàn)槎说蕉说谋举|(zhì)是場(chǎng)景輸入,軌跡輸出,VLA也是如此,但算法的創(chuàng)新是多了思考。端到端可以理解為VA,沒有Language,Language對(duì)應(yīng)的是思考和理解,我們?cè)赩LA中加入了這一部分,把機(jī)器人的范式統(tǒng)一,讓自動(dòng)駕駛也能成為機(jī)器人的一類,這是算法創(chuàng)新,不只是工程創(chuàng)新。
但對(duì)于自動(dòng)駕駛而言,很大的挑戰(zhàn)是必須要有工程創(chuàng)新。因?yàn)閂LA是一個(gè)大模型,大模型部署在邊緣端算力上是非常具有挑戰(zhàn)的。很多團(tuán)隊(duì)并不是認(rèn)為VLA不好,而是因?yàn)閂LA部署有困難,把它真正落地是非常具有挑戰(zhàn)性的事情,尤其是在邊緣端芯片算力不夠的情況下是不可能完成的,所以我們是在大算力芯片上才能部署。所以這不僅僅是工程創(chuàng)新,但的確需要工程部署大范圍優(yōu)化才能實(shí)現(xiàn)。
Q:從行業(yè)角度來看,目前智駕體驗(yàn)是比較趨同的,未來理想汽車是否會(huì)將自己的智駕能力向行業(yè)輸出或開源或向其他車企售賣?
郎咸朋:我認(rèn)為是可以的,我們希望為行業(yè)做貢獻(xiàn)。但前提是,第一,我們是不是能夠很好地驗(yàn)證這套系統(tǒng),因?yàn)檎麄€(gè)VLA的發(fā)展還是在技術(shù)周期的初期階段,需要繼續(xù)提升;第二,是否其他人有能力和我們一起去做這件事,因?yàn)樗残枰凶约旱脑u(píng)測(cè)方式、仿真環(huán)境,以及強(qiáng)化學(xué)習(xí)訓(xùn)練能力。
從公司或我個(gè)人的態(tài)度上,是希望能夠促進(jìn)行業(yè)發(fā)展,但從目前VLA技術(shù)發(fā)展階段來看,依然是比較初級(jí)的,它的發(fā)展速度可能會(huì)比較快,像端到端一樣,用一年的時(shí)間將效果提升10倍。行業(yè)發(fā)展速度會(huì)非??欤蚁嘈琶髂隃贤ǖ臅r(shí)候可能會(huì)討論一下開源的問題。
Q:今年下半年開始,各家車企都會(huì)推進(jìn)VLA,理想對(duì)于VLA這個(gè)技術(shù)的優(yōu)勢(shì)或技術(shù)壁壘是怎樣的?
詹錕:第一個(gè)是我們的技術(shù)棧是有延續(xù)性的,并不是從之前的規(guī)則時(shí)代突然跳到VLA,那它肯定會(huì)有各種各樣的問題,比如有沒有把數(shù)據(jù)積累上來,有沒有那么好的訓(xùn)練,有沒有那么好的仿真評(píng)測(cè)系統(tǒng)等等。我們現(xiàn)在做VLA其實(shí)是一個(gè)延續(xù)性的技術(shù)架構(gòu),甚至把原來的優(yōu)勢(shì)都利用起來,站在巨人的肩膀上繼續(xù)做。
郎咸朋:技術(shù)壁壘肯定是有,理想最核心的技術(shù)壁壘還是世界模型仿真的壁壘,這個(gè)壁壘是非常高的,別人很難短時(shí)間去復(fù)制出來。因?yàn)樗牡俣鹊么_保,且還得用實(shí)車去測(cè)試,所以是很難超越我們的。
Q:理想對(duì)VLA司機(jī)的定義是一個(gè)更好的家庭司機(jī),一個(gè)安心的移動(dòng)空間,未來VLA技術(shù)會(huì)不會(huì)拓展到別的產(chǎn)品線或一些服務(wù)過程中,撇開商品車之外的那些服務(wù)?
詹錕:我們相信VLA在未來會(huì)形成一個(gè)更大的、統(tǒng)一的架構(gòu)。我們也覺得VLA是在對(duì)物理世界AI落地來說,是非常好、非常一致性的前瞻技術(shù),并不僅僅是自動(dòng)駕駛,可能是物理AI目前看到最合理的一個(gè)方向。
郎咸朋:這肯定是可以拓展的,我們也成立了各種其他的機(jī)器人部門。VLA是一個(gè)很好的具身智能的技術(shù)框架,可能可以延續(xù)到其他方向。
Q:OrinX后續(xù)版本的推送是同步的,還是會(huì)有差異?另外,OrinX去推VLA的時(shí)候,它的能力上限在你們內(nèi)部去考慮,后續(xù)多長時(shí)間它會(huì)和ThorU拉開差距,還是一直去保持同步的更新?
郎咸朋:我們是同步推送的,這次如果i8上線的時(shí)候,老用戶ADMax的車主,包括2022年買車的車主,只要是OrinX的芯片或者Thor芯片,都會(huì)同步推送。目前測(cè)試來看在能力上沒有任何差異,幀率上也沒有差異,我們做的工程優(yōu)化都非常好,都是10幀的。唯一的差異就是i8的底盤跟L9的底盤是有些差異,舒適度的體驗(yàn)上可能有一些不同。
后續(xù)的推送節(jié)奏也是同步的,Orin平臺(tái)和Thor平臺(tái)都是同步來推送。至于什么時(shí)候能拉開差異,我們現(xiàn)在肯定不會(huì)做這種差異化。但是隨著下一步的迭代,如果我們?cè)贗NT4的量化上有一些突破,那個(gè)時(shí)候可能會(huì)有一定差異,但是現(xiàn)在談這個(gè)還為時(shí)尚早。
Q:我們今天體驗(yàn)的這一版實(shí)車,在你們心里的評(píng)分大概是多少?要達(dá)到多少分,你們認(rèn)為才可以大量的推送給用戶。
郎咸朋:我們內(nèi)部是有一個(gè)打分的機(jī)制,以仿真為例,現(xiàn)在是全面先對(duì)標(biāo)OTA7.5,OTA7.5是我們?cè)诙说蕉松献詈笠粋€(gè)版本。這個(gè)版本的得分,內(nèi)部是有評(píng)分的,我們?cè)谕瞥龅谝话鎂LA的時(shí)候,包括大家今天試駕這版的VLA,它在我們內(nèi)部的打分已經(jīng)全面超越了OTA7.5的。但是在一些小的分?jǐn)?shù)上,可能有一些波動(dòng)的。在整體的打分情況上,這個(gè)版本已經(jīng)超越了端到端一點(diǎn)點(diǎn)。
但是我們?cè)谡嬲扑陀脩糁埃覀儠?huì)做到一個(gè)明顯的效果提升。今天大家試到的是我們特意讓大家先試一下我們?cè)谑孢m度上的一些提升,如果大家比較熟悉車,肯定是能體驗(yàn)出來的。接下來我們會(huì)在安全、合規(guī)、導(dǎo)航、效率等等方面,我們會(huì)在自己的一些維度上都會(huì)有較大幅度的提升。讓熟悉我們車的人買i8一上車就會(huì)有非常大的體驗(yàn)。讓沒用過輔助駕駛的人,使用輔助駕駛的時(shí)候,也會(huì)有很強(qiáng)的安全感和安心感,而且還有很強(qiáng)的舒適程度。
Q:大家都說多模態(tài)模型還沒有進(jìn)入所謂的GPT時(shí)刻,無論是對(duì)世界的理解還是數(shù)據(jù)的訓(xùn)練,雖然大家都模模糊糊看到一個(gè)方向,但具體怎么做沒有一個(gè)明確的解法,這時(shí)候你們需要做一個(gè)量產(chǎn)方案去推送到市場(chǎng)上,你覺得這個(gè)方案是一個(gè)足夠好的解法了嗎?以及它抵達(dá)所謂的GPT時(shí)刻還需要花多長時(shí)間?
詹錕:大家說多模態(tài)模型沒有達(dá)到GPT時(shí)刻,可能指的是VLA這種物理AI,而不是VLM,其實(shí)現(xiàn)在VLM已經(jīng)完全滿足一個(gè)非常創(chuàng)新的GPT時(shí)刻。如果針對(duì)物理AI,現(xiàn)在的VLA,特別是在機(jī)器人領(lǐng)域、具身領(lǐng)域可能并沒有達(dá)到GPT時(shí)刻,因?yàn)樗鼪]有那么好的泛化能力,但在自動(dòng)駕駛領(lǐng)域,其實(shí)VLA解決的是一個(gè)相對(duì)統(tǒng)一的駕駛范式,是有機(jī)會(huì)用這個(gè)方式做到一個(gè)GPT時(shí)刻的,我們也非常承認(rèn)現(xiàn)在的VLA是第一版本,也是業(yè)界第一個(gè)往量產(chǎn)上要推的VLA版本,肯定會(huì)存在一些缺陷。
這個(gè)重大嘗試是想說我們想用VLA來探索一個(gè)新的路徑,它里面有很多嘗試的地方,有很多需要去落地的探索的點(diǎn),不是說不能做到GPT時(shí)刻就一定不能去做量產(chǎn)落地,能給用戶「更好、更舒適、更安全」的體驗(yàn)就可以交付。
GPT時(shí)刻更多指的是具有很強(qiáng)的通用性和泛化性,在這個(gè)過程可能隨著我們自動(dòng)駕駛往空間機(jī)器人或往其它具身領(lǐng)域去拓展的時(shí)候會(huì)產(chǎn)生出更強(qiáng)的泛化能力或者更綜合的統(tǒng)籌能力,我們也會(huì)在落地以后隨著用戶數(shù)據(jù)迭代、場(chǎng)景豐富、思維邏輯性越來越多、語音交互越來越多逐漸往ChatGPT時(shí)刻遷移,不是一定要達(dá)到GPT時(shí)刻才能做一個(gè)自動(dòng)駕駛模型。
比如我們落地了VLA以后不能往ChatGPT去遷移,這是我們VLA落地第一個(gè)版本后逐漸會(huì)往更豐富、更通用、更多樣化能力去做的VLA模型。像郎博說的到明年我們?nèi)绻搅?000MPI,可能會(huì)給用戶這種感覺真的到了一個(gè)VLA的ChatGPT的時(shí)刻。
全球航海:我有概率百分百的歐皇天賦,讓我勇闖海洋!
全球航海:概率百分百生存!歐皇陳風(fēng)的海洋大冒險(xiǎn)今日推薦:《全球航海:我的概率百分百》作者:超級(jí)ws大仙。點(diǎn)擊文末超鏈接開始觀看吧~第一千零四十九章蛛網(wǎng)式搜索王若曦:“我這邊沒有看到什么異常,小婷呢,你有沒有看到!”馬小婷:“阿巴!臥槽!原始暴怒這個(gè)技能太牛批啦,我好喜歡!額,你說什么異常,..
全球航海災(zāi)難頻發(fā),他卻靠歐皇天賦征服大海享盡榮華
全球航海:我的概率百分百,走過風(fēng)暴、闖過漩渦,歐氣UPUP!今日推薦:《全球航海:我的概率百分百》作者:超級(jí)ws大仙。點(diǎn)擊文末超鏈接開始觀看吧~第七百二十九章副本規(guī)則也就是說,除了陳風(fēng)的衛(wèi)星,其他種族的玩家,是不可能有載具支援的_|。所以陳風(fēng)等級(jí)雖然是6級(jí),但是在天空之城的上層,也就不是那么弱勢(shì)了,說有幫助請(qǐng)點(diǎn)贊-_。
全球航海:概率百分百歐皇陳風(fēng),釣魚、攻擊、抽獎(jiǎng)全是百分百!
《全球航海:我的概率百分百》作者:超級(jí)ws大仙第一章全球航海游戲嘩啦啦~海面上海浪拍打著|?!斑@是什么鬼?”陳風(fēng)一臉懵逼的穿著睡衣,手腳并用在海里踩著水,防止自己沉下去。高喊著月亮不睡我不睡,刷了一夜短視頻的他才剛剛在床上睡著--。下一秒就出現(xiàn)在大海里,被海水給嗆醒,還好會(huì)游泳,只是喝了一點(diǎn)還有呢?
來源:紅網(wǎng)
作者:市淼淼
編輯:杭利
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。