7月29日晚上,預(yù)熱已久的理想i8終于上市,正好卡在理想成立十周年的節(jié)點。
i8總共發(fā)布了三個版本,售價32.18-36.98萬元。先來看看具體的價格和配置:
Pro版32.18萬,Max版34.98萬,Ultra版36.98萬。
雙電機智能四驅(qū)、雙腔魔毯空氣懸架、座椅舒適性配置、前排屏幕、HUD、激光雷達等配置均為全系標配。
Pro版搭載的是理想輔助駕駛ADPro,Max版和Ultra版搭載的則是ADMax。
這場發(fā)布會信息量很密集,i8的產(chǎn)品發(fā)布、VLA司機大模型、理想同學智能體(Agent)、超充網(wǎng)絡(luò)被塞在了兩個小時的演講里。
發(fā)布會的重頭戲在于車,更是在于i8首發(fā)的輔助駕駛功能有大幅度升級。
理想的VLA(視覺-語言-動作模型)與i8同步發(fā)布,讓i8成了第一款搭載VLA司機大模型的理想車型。8月份,VLA就會在i8上交付。
所有ADMax車主也會在8月同步OTA,包含了Thor-U平臺與Orin-X平臺的車主。另外,搭載J6M的ADPro將在年底全量推送城市NOA。
就在發(fā)布會的前幾天,我們不僅替大家搶先試乘試駕了具備VLA能力的理想MEGA以及理想i8,并且和郎咸朋及其團隊進行了一次3小時左右的深入交流。關(guān)于VLA是什么、它能做到什么、以及理想是怎么做出來的,這些問題有了更為清晰的答案。
VLA能力的提升,集中體現(xiàn)在三點:更懂語義、更擅長推理、更接近人類駕駛直覺。具體表現(xiàn)在:
行駛中能聽懂「靠邊停一下」「往前走50米」「快一點」這類自然語言指令,并據(jù)此完成操作;
可以根據(jù)過往記憶設(shè)定特定路段的速度;
能根據(jù)語音指令找到目的地,比如「幫我找到最近的星巴克」;
在復雜路況下,它也能判斷通行風險、選對道路,主動規(guī)避障礙。
在理想看來,VLA帶來的不再只是更好用的輔助駕駛,更是換了一個能聽懂人話、會動腦子的「司機」。
這是輔助駕駛領(lǐng)域的一次跳躍,理想率先進入了無人區(qū)。
01
為什么是VLA
過去幾年,輔助駕駛經(jīng)歷了三種架構(gòu)的迭代:規(guī)則算法、端到端、VLA,這是一個從指令控制,到模仿行為,再到理解意圖的過程。每一代技術(shù)都在不停地提升算力、平均接管里程,本質(zhì)上是要不斷接近人類的駕駛方式。
7月25日,理想汽車自動駕駛研發(fā)高級副總裁郎咸朋博士在跟媒體交流的過程中分享了理想關(guān)于VLA的研發(fā)歷程和思考邏輯。郎咸朋認為,輔助駕駛的人工時代到現(xiàn)在AI時代的分水嶺,是從無圖到端到端。在原來輕圖、NPN或者無圖的人工時代,輔助駕駛的核心是規(guī)則算法?!敢粋€典型場景就是工程師他會自己去設(shè)計算法,并且通過編程來控制車輛運作、運行。決定人工時代性能的核心就是工程師,人的經(jīng)驗、編程能力、算法能力決定了這個系統(tǒng)是不是性能好?!?/p>
人工時代的局限性在于,單靠人力難以解決所有場景,用郎咸朋的話說,很多場景是「按下葫蘆起來瓢」。于是輔助駕駛進入了端到端時代。
端到端+VLM(視覺-語言大模型)的核心是模仿學習,用人類駕駛的數(shù)據(jù)來訓練模型。這個技術(shù)階段,決定性的因素就是「數(shù)據(jù)」。數(shù)據(jù)多,覆蓋的場景全,數(shù)據(jù)質(zhì)量好——最好是來自老司機,這時訓練模型的性能就會非常好。
但模仿學習終究有上限。理想是最早一批意識到這一點并轉(zhuǎn)向強化學習路線的企業(yè)之一。相比過去只依賴真實駕駛數(shù)據(jù),VLA采用生成數(shù)據(jù)和仿真環(huán)境結(jié)合的方式,讓模型能在無風險、可控的虛擬世界中自主進化。這套思路如今也正在被更多車企采納,VLA正成為智能駕駛的新共識。
郎咸朋解釋,需要生成數(shù)據(jù)來訓練模型的原因在于,人類駕駛數(shù)據(jù)存在嚴重的分布不均,大多集中在白天、晴天、正常通勤等常規(guī)場景,真正復雜或危險的工況數(shù)據(jù)稀缺且難以采集。而訓練具備真實決策能力的模型,恰恰需要這些邊緣與極端場景。
這就要求引入合成數(shù)據(jù)和高質(zhì)量仿真環(huán)境,用生成式方法構(gòu)建覆蓋更全、分布更廣的數(shù)據(jù)集,同時不斷評測模型表現(xiàn)。最終決定模型性能提升速度的關(guān)鍵,不是收集了多少真實數(shù)據(jù),而是仿真迭代的效率。相比傳統(tǒng)的數(shù)據(jù)驅(qū)動方式,這是一種更具主動性的訓練方式。
合成數(shù)據(jù)的訓練方式也直接帶來了成本的下降。據(jù)郎咸朋介紹,2023年,一年用實車的有效測試里程大概有157萬公里,每公里成本是18元。而到了今年上半年,總共測了4,000萬公里,其中實車只有2萬公里,測試成本來到了平均每公里5毛錢?!妇褪歉秱€電費和服務(wù)器的費用,并且測試質(zhì)量還高,所有的場景都能舉一反三,可以完全復測,分毫不差。」
接下來理想要回答的問題是:VLA模型到底強在哪?為什么要在端到端+VLM之后做VLA?
VLA的全稱是Vision-Language-Action,是視覺-語言-動作模型。在VLA模型中,V承擔著空間感知的職責,通過攝像頭、導航等多種輸入,構(gòu)建出對周圍環(huán)境的理解;L則把這種感知翻譯成清晰的語言;A指的是根據(jù)對場景的編碼,生成行為策略,也就是模型該怎么開車。
簡單來說,VLA就是一個能聽懂人話、看懂圖像并結(jié)合兩種信息行動的模型,讓人無需通過特定語音、文字指令或按鈕,而是通過自然語言去控制包括機器人、汽車在內(nèi)的智能體,能夠獨立執(zhí)行任務(wù)、承擔責任。
它可以聽懂人話,比如「開慢點」「換到右邊車道」;可以記住偏好,比如之前在這條路上都是開80km/h;也能像老司機一樣,提前做出防御性操作,比如在橋洞前減速,避免突然沖出來的車輛。而這些能力靠傳統(tǒng)端到端模型無法實現(xiàn)。
郎咸朋說,端到端架構(gòu)不具備深度思考能力,頂多算是一個應(yīng)激反應(yīng),輸入后模型給一個輸出,背后沒有深度邏輯?!妇拖窈镒娱_車一樣。喂猴子一些香蕉,它可能會按照你的意圖做一些行為,但并不知道自己為什么要做這些行為,一敲鑼它就過來,一打鼓它就跳舞,但不知道為什么要跳舞。」
所以,即使理想后來嘗試在端到端中加入VLM,試圖讓VLM提供更好的決策,還是會出現(xiàn)端到端無法理解VLM在說什么的問題。
而VLA的核心能力可以總結(jié)為:能思考、能溝通、能記憶、能自我提升?;谶@幾個能力,產(chǎn)品上帶給用戶的實際體驗是安全、舒適、高超的駕駛技巧和自然的交互能力。在i8這款產(chǎn)品上,VLA的能力提升帶來了整個產(chǎn)品體驗的升級。
而理想也把對輔助駕駛的功能定位,從安全、能用的「職業(yè)司機」,進化成了「給所有人提供一個更好的家庭司機」。
這就要求輔助駕駛在功能價值之外,還要滿足乘員的情緒價值訴求。郎咸朋說:「你自己在車上和家人在車上的時候,開車方式是不一樣的,你肯定會開得更安全、舒適,并且會根據(jù)家人的偏好來開車。」
i8發(fā)布會之前,現(xiàn)場放了一段體驗VLA的短片,李想在其中承認,之前對輔助駕駛要成為「老司機」的定義有點問題?!咐纤緳C是開的人舒服,乘的人不一定舒服。后來我們做了一個新的定義:職業(yè)司機,按照國賓司機的標準來,這樣所有人就都不挑了?!?/p>
我們在試乘試駕過程中也發(fā)現(xiàn),「國賓司機」這套新標準并不是說說而已。試乘現(xiàn)場提供的VLA穿梭巴士體驗并不復雜,主要在理想園區(qū)內(nèi)進行,時速約為10公里,但已經(jīng)可以通過語音控制完成靠邊停車、左右轉(zhuǎn)向和提速等操作。在車輛處于無人狀態(tài)下,它可以模擬完成「去咖啡店、快遞站取件后自動返回」等日常任務(wù)。
更值得注意的是,在面對極窄通道路口時,VLA展現(xiàn)出了相當穩(wěn)定的通過能力。也可以駛出園區(qū),接入公共道路前往下一個目的地。整體表現(xiàn)與今年早些時候L9試驗車上的司機Agent版本相近,盡管稱不上驚艷,但在執(zhí)行精度和動作節(jié)奏上確實更穩(wěn)了。
02
理想注定第一個做出VLA?
目前,VLA已經(jīng)成為智能駕駛行業(yè)的新方向。除了理想之外,小米、小鵬、吉利等多家整車企業(yè),以及元戎啟行、Waymo等供應(yīng)商和自動駕駛公司也都在不同程度上推進類似的架構(gòu)轉(zhuǎn)型。然而在實際落地速度上,理想顯然走在了最前面。
李想在i8的發(fā)布會上給出的時間表是:
8月份在i8上交付VLA;
所有ADMax車主也會在8月同步OTA,包含了Thor-U平臺與Orin-X平臺的車主。
這并不是偶然發(fā)生的結(jié)果。
在郎咸朋看來,VLA并不是一套跳級的打法,而是端到端之后的自然發(fā)展。如果沒有經(jīng)歷過端到端階段對模型感知、決策、控制等環(huán)節(jié)的完整訓練,就無法一步跨入VLA。
郎咸朋在采訪中表示,雖然VLA的數(shù)據(jù)、算法等可能跟之前不太一樣,但是這些仍然是要建立在之前的基礎(chǔ)上的?!溉绻麤]有完整的通過實車采集的數(shù)據(jù)閉環(huán),是沒有數(shù)據(jù)能夠去訓練世界模型的。理想汽車之所以能夠落地VLA模型,是因為我們有12億(公里)數(shù)據(jù),只有在充分了解這些數(shù)據(jù)的基礎(chǔ)上,才能夠更好的生成數(shù)據(jù)?!?/p>
而為什么是理想最先做出VLA,郎咸朋的答案是,「數(shù)據(jù)、算法、算力和工程,四個方向我們都很強」。
理想在算法上的核心能力首先體現(xiàn)在對數(shù)據(jù)的理解與利用上。「數(shù)據(jù)不是誰都有,」郎咸朋表示,「到2025年7月份,我們已經(jīng)累計了12億公里的有效數(shù)據(jù)。這些數(shù)據(jù)得益于我們銷量的增長,我們車也賣出了130多萬輛?!?/p>
從2020年起,理想就系統(tǒng)性地按天氣、道路類型、交通狀態(tài)等維度細化標簽,建立起一套覆蓋復雜工況和長尾場景的數(shù)據(jù)體系。郎咸朋表示,「做到1,000萬Clips或者2,000萬Clips,并不困難,但能夠弄出這么多類型、這么多有價值的數(shù)據(jù),這是我們的優(yōu)勢之一。我們的1,000萬Clips由很多類別的數(shù)據(jù)構(gòu)成,并且包含很多精心挑選的數(shù)據(jù)?!?/p>
當傳統(tǒng)實車數(shù)據(jù)無法再提供更多的提升,理想又大規(guī)模引入合成數(shù)據(jù)。借助世界模型技術(shù),理想能將歷史實錄場景進行重建與擴展——一個普通的高速ETC路口,可以被虛擬為雨夜、霧天、黃昏等多種工況,并衍生出輕微變形、干擾車輛等極端情況。VLA曾出錯的場景會被自動改編成一系列變體,不斷循環(huán)訓練。
郎咸朋在采訪中對仿真數(shù)據(jù)的效果表示非常自信:「我們現(xiàn)在的仿真效果完全可以媲美實車測試,現(xiàn)在的超級版本和理想i8的VLA版本中90%以上的測試都是仿真測試。從去年端到端版本我們就已經(jīng)開始進行仿真測試的驗證,目前我們認為它的可靠性和有效性都很高,所以我們以此替代了實車測試?!?/p>
不過他也表示,仍有一些測試是無法替代的。「比如硬件耐久測試,但和性能相關(guān)的測試我們基本上會使用仿真測試替代,效果也非常好?!?/p>
支撐這套體系的是理想在推理與訓練算力上的資源投入。郎咸朋介紹,當前理想擁有總計13EFLOPS的訓練平臺,其中10EFLOPS分配給訓練,3EFLOPS用于推理。推理能力的重要性在VLA時代被放大,因為世界模型的生成與場景擴展都依賴推理性能,若沒有強大的推理卡,就無法開展真正有效的強化訓練。據(jù)理想內(nèi)部估算,其目前所擁有的推理資源等效于3萬張英偉達L20的推理卡。
但算力并不代表可交付。VLA能否真正進入車端,還需跨越工程落地這道門檻。過去一年,理想在芯片適配和模型壓縮方面持續(xù)發(fā)力:去年在Orin-X上成功部署2B模型,今年又在Thor-U芯片上實現(xiàn)4BMoE(混合專家)模型的部署,且推理精度從FP16壓縮至FP8和INT8。當前VLA已適配Orin-X和Thor平臺,未來還將向FP4推進,繼續(xù)壓榨算力的潛能。
郎咸朋提出了一個觀點:「我們認為上一代技術(shù)能力的上限,是下一代技術(shù)能力的起點。」這個觀點來自理想進行輔助駕駛架構(gòu)迭代的實踐經(jīng)驗。從2021年做到2024年,這個時期屬于規(guī)則時代,理想把(高速+城市)全場景的MPI(平均接管里程)做到了大約10公里,這也是端到端起步階段的數(shù)據(jù),現(xiàn)在端到端+VLM方案的MPI則來到了200公里左右。
「現(xiàn)在,如果MPI真正能提升到1,000公里,就意味著可能真的是兩三個月才接管一次,這可能意味著邁入到下一個時代了?!?/p>
03
VLA的ChatGPT時刻何時到來
7月25日,42號車庫和行業(yè)多家媒體與理想的自動駕駛團隊進行了深入交流,接受采訪的有理想汽車自動駕駛研發(fā)高級副總裁郎咸朋博士、理想汽車自動駕駛高級算法專家詹錕和理想汽車自動駕駛高級算法專家湛逸飛。
在這次采訪中,理想的自動駕駛團隊對于VLA的推理能力、現(xiàn)階段的指標以及落地節(jié)奏等關(guān)鍵問題做出了回應(yīng)。他們透露,VLA背后最大的門檻其實是世界模型的仿真能力,別人想跟也很難一口氣補齊整條鏈路。以下是群訪的主要內(nèi)容,我們進行了不改變原意的
Q:VLA司機具備推理能力,并且表現(xiàn)更像人了,但是需要幾秒鐘的推理時間,請問在突發(fā)場景下,VLA司機是怎么進行快思考的?
郎咸朋:您認為思考過程很慢實際上是顯示的原因,本身推理速度是很快的,只是為了讓大家能夠看地更清楚我們摘取了一些重要的思考過程顯示出來。實際上現(xiàn)在VLA的推理幀率在10Hz左右,相比之前的VLM提升了三倍多,之前端到端的VLM部分是3Hz左右。
Q:您是如何判斷自動駕駛落地的時間表?如何進行商業(yè)變現(xiàn)?
郎咸朋:從技術(shù)層面看,我們認為VLA模型是可以走向更高級別的自動駕駛,但它現(xiàn)在處于起步階段,在這個技術(shù)周期里,起步階段VLA模型約等于端到端的上限,它還有很長一段路要走。但我認為這個過程不會特別慢,因為端到端從10MPI到現(xiàn)在100MPI只用了一年左右的時間,我相信VLA的迭代速度也會非???,可能我們明年坐在這兒的時候它已經(jīng)迭代到1,000MPI了。
商業(yè)變現(xiàn)的影響因素非常多,最核心的是國家的法律政策。理想汽車也在積極參與國家相關(guān)政策法規(guī)的討論小組,從技術(shù)上來看L4級別的自動駕駛落地是非??斓模珡纳虡I(yè)角度上看,還有很多問題需要考慮,比如保險,事故之后的賠償?shù)取?/p>
Q:智能駕駛存在一個「不可能三角」,也就是效率、舒適和安全三個目標之間是互相制約的,目前階段可能難以同時實現(xiàn)。請問理想汽車的VLA目前在當前階段最先優(yōu)化的指標是哪一個?剛剛提及到MPI,是否可以理解為目前理想汽車最終的指標是提升安全性以有效減少接管?
郎咸朋:MPI是我們衡量的指標之一,還有一個指標是MPA,也就是指發(fā)生事故的里程,現(xiàn)在是300萬公里左右。理想車主的人駕數(shù)據(jù)是60萬公里左右出一次事故,而在使用輔助駕駛功能的情況下是350到400萬公里發(fā)生一次事故。這個里程數(shù)據(jù)我們還會持續(xù)提升,我們的目標是將MPA能提升到人類駕駛的10倍,也就是比人駕安全10倍,我們希望在輔助駕駛功能下能夠做到600萬公里才出一次事故,但這必須等到VLA模型提升之后才能做到。
針對MPI,我們也做過分析,可能一些安全風險問題會導致接管,但有時候舒適度不好也會導致接管,比如急剎、重剎等,因為并不一定每次都會遇到安全風險,但是如果駕駛舒適度不好,用戶依然不想用輔助駕駛功能。因為MPA可以衡量安全性,在MPI方面,除了安全性之外,我們重點提升了行車舒適度,如果體驗了理想i8的輔助駕駛功能,會體驗到舒適度比之前的版本有很大提升。
效率是排在安全和舒適之后的,比如走錯路,雖然效率有所損失,但我們不會通過一些危險的動作立刻糾正,還是要在安全和舒適的基礎(chǔ)上去追求效率。
Q:您剛才講到從規(guī)則到端到端+VLM是比較大的技術(shù)路線革新,但VLA其實沒有顛覆端到端+VLM,所以是否可以理解成VLA是偏向于工程能力的創(chuàng)新?
詹錕:VLA不只是工程方面的創(chuàng)新,大家如果關(guān)注具身智能,會發(fā)現(xiàn)這波浪潮伴隨著大模型對物理世界的應(yīng)用,這本質(zhì)就是提出了一個VLA算法,我們的VLA模型就是想把具身智能的思想和路徑引用在自動駕駛領(lǐng)域。我們是最早提出,也是最早開始實踐的。VLA也是一種端到端,因為端到端的本質(zhì)是場景輸入,軌跡輸出,VLA也是如此,但算法的創(chuàng)新是多了思考。端到端可以理解為VA,沒有Language,Language對應(yīng)的是思考和理解,我們在VLA中加入了這一部分,把機器人的范式統(tǒng)一,讓自動駕駛也能成為機器人的一類,這是算法創(chuàng)新,不只是工程創(chuàng)新。
但對于自動駕駛而言,很大的挑戰(zhàn)是必須要有工程創(chuàng)新。因為VLA是一個大模型,大模型部署在邊緣端算力上是非常具有挑戰(zhàn)的。很多團隊并不是認為VLA不好,而是因為VLA部署有困難,把它真正落地是非常具有挑戰(zhàn)性的事情,尤其是在邊緣端芯片算力不夠的情況下是不可能完成的,所以我們是在大算力芯片上才能部署。所以這不僅僅是工程創(chuàng)新,但的確需要工程部署大范圍優(yōu)化才能實現(xiàn)。
Q:從行業(yè)角度來看,目前智駕體驗是比較趨同的,未來理想汽車是否會將自己的智駕能力向行業(yè)輸出或開源或向其他車企售賣?
郎咸朋:我認為是可以的,我們希望為行業(yè)做貢獻。但前提是,第一,我們是不是能夠很好地驗證這套系統(tǒng),因為整個VLA的發(fā)展還是在技術(shù)周期的初期階段,需要繼續(xù)提升;第二,是否其他人有能力和我們一起去做這件事,因為他也需要有自己的評測方式、仿真環(huán)境,以及強化學習訓練能力。
從公司或我個人的態(tài)度上,是希望能夠促進行業(yè)發(fā)展,但從目前VLA技術(shù)發(fā)展階段來看,依然是比較初級的,它的發(fā)展速度可能會比較快,像端到端一樣,用一年的時間將效果提升10倍。行業(yè)發(fā)展速度會非??欤蚁嘈琶髂隃贤ǖ臅r候可能會討論一下開源的問題。
Q:今年下半年開始,各家車企都會推進VLA,理想對于VLA這個技術(shù)的優(yōu)勢或技術(shù)壁壘是怎樣的?
詹錕:第一個是我們的技術(shù)棧是有延續(xù)性的,并不是從之前的規(guī)則時代突然跳到VLA,那它肯定會有各種各樣的問題,比如有沒有把數(shù)據(jù)積累上來,有沒有那么好的訓練,有沒有那么好的仿真評測系統(tǒng)等等。我們現(xiàn)在做VLA其實是一個延續(xù)性的技術(shù)架構(gòu),甚至把原來的優(yōu)勢都利用起來,站在巨人的肩膀上繼續(xù)做。
郎咸朋:技術(shù)壁壘肯定是有,理想最核心的技術(shù)壁壘還是世界模型仿真的壁壘,這個壁壘是非常高的,別人很難短時間去復制出來。因為它的迭代速度得確保,且還得用實車去測試,所以是很難超越我們的。
Q:理想對VLA司機的定義是一個更好的家庭司機,一個安心的移動空間,未來VLA技術(shù)會不會拓展到別的產(chǎn)品線或一些服務(wù)過程中,撇開商品車之外的那些服務(wù)?
詹錕:我們相信VLA在未來會形成一個更大的、統(tǒng)一的架構(gòu)。我們也覺得VLA是在對物理世界AI落地來說,是非常好、非常一致性的前瞻技術(shù),并不僅僅是自動駕駛,可能是物理AI目前看到最合理的一個方向。
郎咸朋:這肯定是可以拓展的,我們也成立了各種其他的機器人部門。VLA是一個很好的具身智能的技術(shù)框架,可能可以延續(xù)到其他方向。
Q:OrinX后續(xù)版本的推送是同步的,還是會有差異?另外,OrinX去推VLA的時候,它的能力上限在你們內(nèi)部去考慮,后續(xù)多長時間它會和ThorU拉開差距,還是一直去保持同步的更新?
郎咸朋:我們是同步推送的,這次如果i8上線的時候,老用戶ADMax的車主,包括2022年買車的車主,只要是OrinX的芯片或者Thor芯片,都會同步推送。目前測試來看在能力上沒有任何差異,幀率上也沒有差異,我們做的工程優(yōu)化都非常好,都是10幀的。唯一的差異就是i8的底盤跟L9的底盤是有些差異,舒適度的體驗上可能有一些不同。
后續(xù)的推送節(jié)奏也是同步的,Orin平臺和Thor平臺都是同步來推送。至于什么時候能拉開差異,我們現(xiàn)在肯定不會做這種差異化。但是隨著下一步的迭代,如果我們在INT4的量化上有一些突破,那個時候可能會有一定差異,但是現(xiàn)在談這個還為時尚早。
Q:我們今天體驗的這一版實車,在你們心里的評分大概是多少?要達到多少分,你們認為才可以大量的推送給用戶。
郎咸朋:我們內(nèi)部是有一個打分的機制,以仿真為例,現(xiàn)在是全面先對標OTA7.5,OTA7.5是我們在端到端上最后一個版本。這個版本的得分,內(nèi)部是有評分的,我們在推出第一版VLA的時候,包括大家今天試駕這版的VLA,它在我們內(nèi)部的打分已經(jīng)全面超越了OTA7.5的。但是在一些小的分數(shù)上,可能有一些波動的。在整體的打分情況上,這個版本已經(jīng)超越了端到端一點點。
但是我們在真正推送用戶之前,我們會做到一個明顯的效果提升。今天大家試到的是我們特意讓大家先試一下我們在舒適度上的一些提升,如果大家比較熟悉車,肯定是能體驗出來的。接下來我們會在安全、合規(guī)、導航、效率等等方面,我們會在自己的一些維度上都會有較大幅度的提升。讓熟悉我們車的人買i8一上車就會有非常大的體驗。讓沒用過輔助駕駛的人,使用輔助駕駛的時候,也會有很強的安全感和安心感,而且還有很強的舒適程度。
Q:大家都說多模態(tài)模型還沒有進入所謂的GPT時刻,無論是對世界的理解還是數(shù)據(jù)的訓練,雖然大家都模模糊糊看到一個方向,但具體怎么做沒有一個明確的解法,這時候你們需要做一個量產(chǎn)方案去推送到市場上,你覺得這個方案是一個足夠好的解法了嗎?以及它抵達所謂的GPT時刻還需要花多長時間?
詹錕:大家說多模態(tài)模型沒有達到GPT時刻,可能指的是VLA這種物理AI,而不是VLM,其實現(xiàn)在VLM已經(jīng)完全滿足一個非常創(chuàng)新的GPT時刻。如果針對物理AI,現(xiàn)在的VLA,特別是在機器人領(lǐng)域、具身領(lǐng)域可能并沒有達到GPT時刻,因為它沒有那么好的泛化能力,但在自動駕駛領(lǐng)域,其實VLA解決的是一個相對統(tǒng)一的駕駛范式,是有機會用這個方式做到一個GPT時刻的,我們也非常承認現(xiàn)在的VLA是第一版本,也是業(yè)界第一個往量產(chǎn)上要推的VLA版本,肯定會存在一些缺陷。
這個重大嘗試是想說我們想用VLA來探索一個新的路徑,它里面有很多嘗試的地方,有很多需要去落地的探索的點,不是說不能做到GPT時刻就一定不能去做量產(chǎn)落地,能給用戶「更好、更舒適、更安全」的體驗就可以交付。
GPT時刻更多指的是具有很強的通用性和泛化性,在這個過程可能隨著我們自動駕駛往空間機器人或往其它具身領(lǐng)域去拓展的時候會產(chǎn)生出更強的泛化能力或者更綜合的統(tǒng)籌能力,我們也會在落地以后隨著用戶數(shù)據(jù)迭代、場景豐富、思維邏輯性越來越多、語音交互越來越多逐漸往ChatGPT時刻遷移,不是一定要達到GPT時刻才能做一個自動駕駛模型。
比如我們落地了VLA以后不能往ChatGPT去遷移,這是我們VLA落地第一個版本后逐漸會往更豐富、更通用、更多樣化能力去做的VLA模型。像郎博說的到明年我們?nèi)绻搅?000MPI,可能會給用戶這種感覺真的到了一個VLA的ChatGPT的時刻。
大學查寢學姐揚言封殺我,卻不知我馬甲多如牛毛
外婆不知道從哪里聽說了,專門給我打了電話——-?!妇U綰,在學校沒受欺負吧?有人欺負盡管跟外婆說,外婆給你撐腰?!雇馄攀冀K不愿意相信我是欺負人的那一個。我給學院里我唯一認識的院長發(fā)了消息,確定江時漫現(xiàn)在在禮堂幫學生會的人布置現(xiàn)場-|。下周是學校創(chuàng)立的第一百周年,學校很重視,要舉辦慶典-——。一星期前我還在國外的時候,外婆還給我打了視頻?!?易年薇又認真地說:“孟霆儲,我是真喜歡你。”孟霆儲皺著眉頭,撇撇嘴說:“我咋沒感覺到你喜歡我呢?我咋覺得你從來都沒站在我這邊過?!币啄贽壁s緊解釋:“我不贊同你高考前告白,那是怕影響你考試啊。我?guī)拖牟桑且驗樗改敢郧皫瓦^我家?!泵霄獌u了搖頭,說:“喜歡一個人哪能絕對理智啊,我都好了吧!《全小區(qū)的貓和狗都是我的網(wǎng)友》