隨著汽車行業(yè)的飛速發(fā)展,當乘用車從交通工具向智能移動終端不斷進化,艙駕智能化水平已成為衡量整車廠競爭力的核心標尺,而其中車載平臺算力更是端側(cè)艙駕AI進化的核心燃料。
其中,以智駕視角來看,從L2級輔助駕駛,到L2+高級輔助駕駛,再到L3/L4級自動駕駛,車載計算平臺的算力需求正以指數(shù)級增長,這種增長不僅源于傳感器數(shù)量與分辨率的提升,更來自AI算法復(fù)雜度帶來的能力上限的爆炸式演進。
NVIDIADRIVEAGX系列芯片以領(lǐng)先行業(yè)的算力規(guī)模,架構(gòu)創(chuàng)新以及豐富數(shù)字生態(tài),已成為定義智能駕駛時代的“數(shù)字算力引擎”,其構(gòu)建的從云端訓(xùn)練到車端推理的完整算力體系,正在逐步重塑汽車產(chǎn)業(yè)的技術(shù)發(fā)展格局。
而以智艙角度來看,隨著生成式AI技術(shù)的迅猛發(fā)展,艙內(nèi)AI端側(cè)部署正從簡單的語音助手交互向多模態(tài)甚至全模態(tài)智能座艙體驗躍遷。端側(cè)大模型憑借本地實時推理能力,可實現(xiàn)極低延遲的自然語言交互,個性化的主動式AI服務(wù)以及艙內(nèi)外環(huán)境感知應(yīng)用。開發(fā)者可通過CUDA生態(tài)復(fù)用云端大模型開發(fā)優(yōu)化經(jīng)驗,大幅縮短端側(cè)開發(fā)周期同時極大提高推理速度和用戶體驗。
目前已有頭部車企基于NVIDIADRIVEAGX系列芯片部署端到端艙內(nèi)AIAgent,從而實現(xiàn)被動響應(yīng)到主動服務(wù)的體驗升級。
自動駕駛技術(shù)的每一次技術(shù)跨越與性能體驗升級,都伴隨著算力需求的幾何級增長。L2級輔助駕駛僅需10TOPS以下算力,即可完成車道保持、自適應(yīng)巡航等基礎(chǔ)功能;而L2+級高級輔助駕駛對算力的需求驟升至100TOPS以上,以應(yīng)對復(fù)雜城市道路的多目標檢測與決策規(guī)劃;當邁向L3/L4級自動駕駛,系統(tǒng)需要同時處理數(shù)十路傳感器的多并發(fā)數(shù)據(jù)流量,所需算力已突破1000TOPS大關(guān)。
那么,從技術(shù)發(fā)展和落地的角度來看,究竟該如何進一步應(yīng)對汽車智能化發(fā)展帶來的AI算力部署的挑戰(zhàn)?
DRIVEAGXSoC系列
從硬件的角度來看,為了應(yīng)對汽車在快速演變?yōu)橹悄芙K端的過程中對于AI算力的飛速增加的需求,NVIDIA先后推出了DRIVEAGXSoC系列的DRIVEAGXOrinSoC和DRIVEAGXThorSoC。
NVIDIADRIVEAGXOrinSoC可提供高達254TOPS(每秒萬億次運算)的性能,是智能車輛的中央計算平臺。它為輔助駕駛功能、置信視圖以及AI座艙提供高算力支持。
NVIDIADRIVEAGXThorSoC是NVIDIA最新一代,專為汽車行業(yè)日益重要的生成式AI應(yīng)用而打造的集中式車載計算機。作為NVIDIADRIVEAGXOrinSoC的后續(xù)產(chǎn)品,DRIVEAGXThorSoC采用了NVIDIA最新的CPU和GPU技術(shù),包括NVIDIABlackwellGPU架構(gòu),用于Transformer和生成式AI功能。DRIVEAGXThorSoC支持4位浮點數(shù)(FP4)和8位浮點數(shù)(FP8),可提供前所未有的2,000FP4TOPS/1,000INT8TOPS/1,000FP8TFLOPS/500FP16TFLOPS性能。這一平臺不僅提供豐富的座艙功能、安全可靠的輔助駕駛功能,還能夠?qū)⑺泄δ苷现镣粋€集中式平臺上,極大地提高了系統(tǒng)的運行效率和可靠性,并降低了整體系統(tǒng)成本。
高算力平臺為AI上車奠定基礎(chǔ),為算法迭代預(yù)留了充足空間。新一代集中式車載計算平臺將賦能整車廠的高階智能駕駛方案,發(fā)揮其在硬件、軟件算法和算力優(yōu)化方面的優(yōu)勢,推動輔助駕駛技術(shù)的全面升級,并覆蓋高速、城市、泊車等全場景的高階輔助駕駛功能,助力其向高端算力輔助駕駛轉(zhuǎn)型,共同探索大模型、世界模型的路徑,持續(xù)優(yōu)化和提升高速領(lǐng)航、城市記憶領(lǐng)航及更高的旗艦級城市領(lǐng)航功能。
DriveOS軟件架構(gòu)和軟件開發(fā)包
當然,在基于硬件層面推出上述高算力平臺的基礎(chǔ)上,NVIDIA也在軟件層面推出了一系列適用于這些高算力平臺的軟件架構(gòu)和軟件開發(fā)包,從而形成了一整套軟硬結(jié)合的車端系統(tǒng)級AI開發(fā)方案,更好地滿足客戶在大語言模型時代的需求。
1.DriveOS軟件架構(gòu)
DriveOS是NVIDIA提供的軟件板級支持包,包括NVIDIA自研的Type-1虛擬機,虛擬機之上不同的操作系統(tǒng)(Linux或者QNX),操作系統(tǒng)上的豐富的SDK。這些SDK包括大家熟悉的CUDA,TensorRT,Vulkan,還有特意為支持大語言模型的軟件開發(fā)包DriveOSLLMSDK。這些SDK可以使開發(fā)者更容易的訪問SOC中的各種硬件加速引擎,快速的部署應(yīng)用在NVIDIA的平臺。
2.DriveOSLLMSDK介紹
DriveOSLLMSDK是NVIDIA為嵌入式端特別推出的大語言模型軟件開發(fā)包,包含多個專為高效LLM推理而設(shè)計的關(guān)鍵組件。這些組件可確保在汽車平臺上高效部署LLM,包括:
插件庫:LLMs需要專用插件來實現(xiàn)高級功能和優(yōu)化性能。DriveOSLLMSDK包含這些自定義插件,以及一組用于處理上下文相關(guān)組件的內(nèi)核,例如旋轉(zhuǎn)位置嵌入、multiheadattention和KV-cache管理。AttentionPlugin還支持動態(tài)批量大小和動態(tài)輸入序列長度。
標記器/detokenizer:該SDK為LLM推理提供高效的標記器/detokenizer,遵循Llama式字節(jié)對編碼(BPE)標記器,并帶有正則表達式匹配。此模塊將多模態(tài)用戶輸入(例如文本或圖像)轉(zhuǎn)換為令牌流,從而實現(xiàn)不同數(shù)據(jù)類型之間的無縫集成。
采樣器:采樣器對于文本生成、翻譯和對話等任務(wù)至關(guān)重要,因為它控制著模型在推理過程中如何生成文本和選擇標記。DriveOSLLMSDK實現(xiàn)了基于CUDA的采樣器來優(yōu)化此過程。為了平衡推理效率和輸出多樣性,采樣器使用單束采樣方法和Top-K選項。這種方法可提供快速且合理多樣化的輸出,而不會產(chǎn)生探索多個束所需的計算成本。這對于汽車應(yīng)用非常重要,因為需要考慮延遲和效率。
解碼器:在LLM推理期間,解碼器模塊根據(jù)模型的預(yù)測迭代生成token,從而生成文本或序列。DriveOSLLMSDK提供靈活的解碼循環(huán),支持靜態(tài)批量大小、填充輸入序列,以及生成批量中最長的序列。
這些組件共同支持在多個NVIDIADRIVE平臺上實現(xiàn)靈活、輕量級的高性能LLM部署和定制(圖1)。
a)支持的模型、精度格式和平臺
DriveOSLLMSDK在DRIVE平臺上支持一系列先進的LLM,包括NVIDIADRIVEAGXOrin和NVIDIADRIVEAGXThor。作為預(yù)覽功能,該SDK還可以在x86系統(tǒng)上運行,這對于開發(fā)非常有用。目前支持的模型包括以下內(nèi)容,未來預(yù)計還會有其他模型:
Llama38BInstruct
Llama3.18B
Llama3.23B
Qwen2.57BInstruct
Qwen27BInstruct
Qwen2VL
Intern3VL
Phi4VL
該SDK支持多種精度格式,可在不同平臺(包括FP16、FP8、NVFP4和INT4)上解鎖大型LLM。對于INT4(W4A16)精度,使用AWQrecipe將模型權(quán)重量化為INT4,并在FP16中執(zhí)行計算。這種方法可顯著減少內(nèi)存占用。該SDK還在NVIDIADRIVEAGXThor平臺上支持TensorRT版本大于10.4的FP8(W8A8)精度,以及TensorRT版本大于10.8的NVFP4精度。
這些精度可以進一步減少LLM推理期間的內(nèi)存占用,同時增強內(nèi)核性能。在此配置中,權(quán)重和GEMM運算采用FP8或NVFP4格式,而LayerNorm、KV緩存、LM頭和注意力層保留在FP16中??傮w而言,DriveOSLLMSDK旨在高效支持各種LLM,包括多模態(tài)輸入和跨多個平臺的各種精度格式。
b)DriveOSLLMSDK的關(guān)鍵feature
c)LLM部署工作流
LLM部署通常是一個復(fù)雜的過程,需要大量的工程工作,尤其是在邊緣設(shè)備上。DriveOSLLMSDK為在DRIVE平臺上部署LLM提供了簡化的解決方案。所提議的SDK將部署工作流程簡化為兩個簡單的步驟:導(dǎo)出ONNX模型和構(gòu)建引擎(圖2)。此過程與使用TensorRT部署深度學(xué)習模型的標準程序十分相似。
量化在優(yōu)化LLM部署方面發(fā)揮著至關(guān)重要的作用,尤其是對于資源受限的平臺而言。它可以顯著提高LLM的效率和可擴展性。DriveOSLLMSDK通過在ONNX模型導(dǎo)出階段提供多個量化選項來滿足這一需求,您可以通過一條命令輕松調(diào)用這些量化選項:
python3llm_export.py--torch_dir$TORCH_DIR--dtype[fp16|fp8|int4]--output_dir$ONNX_DIR
此命令可將HuggingFace格式的LLM轉(zhuǎn)換為具有指定量化精度的ONNX模型。建議在x86數(shù)據(jù)中心GPU上執(zhí)行此步驟,以避免內(nèi)存不足(OOM)問題。
將模型導(dǎo)出到ONNX后,可以使用llm_build二進制文件來創(chuàng)建相應(yīng)的TensorRT引擎。構(gòu)建過程與特定模型或精度無關(guān),因為IO接口在所有ONNX模型中保持標準化。應(yīng)使用以下命令在DRIVE平臺上構(gòu)建引擎:
./build/examples/llm/llm_build--onnxPath=model.onnx--enginePath=model.engine--batchSize=B--maxInputLen=N--maxSeqLen=M
該SDK還包括交叉編譯構(gòu)建系統(tǒng),支持在x86機器上編譯AArch64目標。此功能可加速部署并簡化邊緣計算平臺上的特征驗證。
除了其用戶友好型部署流程外,DriveOSLLMSDK還提供各種C++代碼示例,用于端到端LLM推理、性能基準測試和實時聊天實現(xiàn)。這些示例使開發(fā)者能夠使用靜態(tài)批量大小和輸入/輸出序列長度來評估DRIVE平臺上不同模型的準確性和性能,或自定義自己的應(yīng)用程序。
要使用SDK提供的C++代碼來啟用LLM聊天機器人,請使用以下示例命令:
./build/examples/llm/llm_chat--tokenizerPath=llama-v3-8b-instruct-hf/--enginePath=llama3_fp16.engine--maxLength=64
此命令的整個推理工作流如圖3所示,其中與DriveOSLLMSDK相關(guān)的組件以藍色塊表示。
d)多模態(tài)LLM部署的性能
總結(jié)
當前,整個汽車行業(yè)在持續(xù)追求輔助駕駛快速發(fā)展的同時,也在不斷推進大語言模型在車端的落地,這就對車端AI算力的多樣化部署,尤其是對大語言模型的部署和適配能力,提出了更加復(fù)雜和多樣化的要求。
NVIDIADriveOSLLMSDK簡化了LLM和VLM在DRIVE平臺上的部署。通過利用強大的NVIDIATensorRT推理引擎以及LLM特定優(yōu)化技術(shù),如量化,先進的LLM和VLM可以在DRIVE平臺上輕松的部署,并取得此SDK為在生產(chǎn)環(huán)境中部署強大的LLM奠定了基礎(chǔ),最終提高了AI驅(qū)動的應(yīng)用的性能。
對于NVIDIA來說,通過軟硬件結(jié)合的方式來持續(xù)推進并引領(lǐng)最新的技術(shù)進展,一直是NVIDIA面向汽車行業(yè)進行技術(shù)賦能的核心邏輯——由此,面對大語言模型快速上車的大趨勢,DRIVE平臺更好地支持LLM的部署,成為這一邏輯落地的關(guān)鍵一環(huán)。
從長遠的視角來看,伴隨著智能駕駛和智能座艙在大模型時代的不斷演進,二者之間也正在呈現(xiàn)出相互融合和相互賦能的發(fā)展態(tài)勢,這將會使得汽車終端在持續(xù)擁抱大算力的同時,也將會越來越意識到相應(yīng)的軟件適配能力的重要性。
由此,更加緊密和深層次的軟硬結(jié)合,已經(jīng)成為AI在車端進一步落地的必由之路。
小說:重生都市醫(yī)武雙絕,他誓要登臨蒼穹之巔,執(zhí)掌一切
都市異能爽文,他驚天醫(yī)術(shù)至強武功在身,縱橫無敵,登臨蒼穹之巔
都市修真爽文,他左手醫(yī)術(shù)、右手武功,重生回歸都市,登臨蒼穹
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。