仉茂
iGPU、NPU和擴展卡并非適用于所有計算任務(wù)的通用解決方案。
在邊緣部署人工智能(AI)面臨著獨特的硬件挑戰(zhàn)。雖然強大的圖形處理單元(GPU)在開發(fā)中很常見,但實際用例往往面臨尺寸、功耗、環(huán)境和預(yù)算方面的限制。這些限制使得獨立顯卡(有時簡稱為dGPU)與更節(jié)能的方案相比并非理想的解決方案。
然而,實現(xiàn)邊緣AI加速目標(biāo)仍然是可能的。讓我們探索邊緣AI領(lǐng)域NPU與GPU的演變格局,包括集成GPU(iGPU)、神經(jīng)處理單元(NPU)和擴展卡,以了解它們?nèi)绾螡M足多樣化的工業(yè)AI推理和機器學(xué)習(xí)需求。
邊緣AI加速的動態(tài)格局
通用GPU盡管擁有高性能潛力,但由于能效限制、對惡劣條件(灰塵、振動)的敏感性以及顯著的尺寸和成本影響,在大規(guī)模邊緣部署中往往舉步維艱。幸運的是,邊緣AI加速器技術(shù)領(lǐng)域正在快速創(chuàng)新。對于數(shù)據(jù)中心以外的分布式架構(gòu),或需要平衡數(shù)據(jù)處理性能、成本和能效的輕量級AI應(yīng)用,仔細(xì)評估您的具體需求和工作負(fù)載至關(guān)重要。在堅固耐用的無風(fēng)扇工業(yè)計算機中使用NPU等專用處理器,可以提高極端條件下的可靠性,并優(yōu)化各種計算任務(wù)的硬件成本。
與獨立的邊緣AI平臺相比,集成AI專用處理器、神經(jīng)處理單元(NPU)甚至MXM加速器等加速器,能夠精準(zhǔn)地為AI工作負(fù)載提供所需的計算能力。在選擇AI加速器時,評估系統(tǒng)總成本和軟件框架生態(tài)系統(tǒng)至關(guān)重要。雖然AI擴展卡可以提升性能,但它們也會顯著增加系統(tǒng)成本。通常,像iGPU和NPU這樣的集成解決方案,或像NVIDIAJetson這樣的專用平臺,可以為許多用例提供更精簡、更經(jīng)濟高效的方法。
NPU驅(qū)動的AI:神經(jīng)網(wǎng)絡(luò)的高效片上加速
歷史上,強大的中央處理器(CPU)和GPU憑借其廣泛的軟件兼容性,主導(dǎo)了AI工作負(fù)載和算法。但集成顯卡和加速技術(shù)正在不斷發(fā)展,現(xiàn)代處理器和SoC提供了寶貴的板載工業(yè)AI推理和機器學(xué)習(xí)功能。
關(guān)鍵創(chuàng)新在于集成的NPU,例如英特爾AIBoost(第14代酷睿Ultra)和AMDXDNA(銳龍7000/8000系列)。這些專用協(xié)處理器具有專門的電路,用于神經(jīng)網(wǎng)絡(luò)所必需的矩陣乘法和張量運算,可直接在處理器本身上加速深度學(xué)習(xí)。雖然它們的性能通常適用于后臺圖像處理、音頻處理和CPU卸載,但它們?yōu)檩p度至中度邊緣AI推理提供了低延遲、低功耗的解決方案,尤其是在空間受限或惡劣的環(huán)境中,功耗較低。
例如,NPU在低分辨率視頻中的實時物體檢測或語音識別等特定任務(wù)上表現(xiàn)出色,通??商峁└哌_(dá)數(shù)TOP的AI性能,因此在智能手機和物聯(lián)網(wǎng)設(shè)備等支持AI的消費電子產(chǎn)品中廣受歡迎。這凸顯了NPU與GPU在特定邊緣計算用例中的關(guān)鍵區(qū)別。
iGPU:經(jīng)常被忽視的并行處理AI資源
英特爾Arc和AMDRadeonAI等現(xiàn)代集成GPU(iGPU)在工業(yè)AI推理甚至部分模型訓(xùn)練方面擁有驚人的能力。其并行處理架構(gòu)使其能夠處理種類繁多的AI任務(wù),其性能通常超出了通用計算領(lǐng)域的普遍認(rèn)知。對于需要中等AI性能的AI應(yīng)用而言,利用iGPU是一種經(jīng)濟高效且節(jié)能的方法。
這些iGPU代表了基礎(chǔ)顯卡的重大升級,專為并行計算而設(shè)計,并在性能和能效之間實現(xiàn)了平衡。例如,英特爾ArcGPU可以實現(xiàn)數(shù)十TOPs的計算能力,適用于視頻分析、圖像識別、圖像處理、視頻編輯,甚至輕量級機器學(xué)習(xí)推理。當(dāng)NPU性能不足,而專用GPU的功耗、空間或成本又無法滿足需求時,這些改進(jìn)使其成為一個可行的選擇。NPU與GPU之間的性能差異在此更加清晰,尤其是在考慮工作負(fù)載時。
AI擴展卡:通過專用處理器實現(xiàn)目標(biāo)性能
雖然NPU和iGPU能夠顯著提升邊緣AI性能,但配備專用處理器的專用AI擴展卡可以進(jìn)一步提升特定任務(wù)和AI工作負(fù)載的性能。M.2模塊(例如Hailo-8邊緣AI處理器)提供了一種便捷的方式來提升強大的計算能力。與谷歌的TPU(張量處理單元)相比,Hailo-8在功耗相似的情況下,性能顯著提升(26TOPsvs.4TOPs)。
例如,OnLogic的ML100G-56集成了Hailo-8卡,為適合多樣化部署的超緊湊工業(yè)計算平臺添加了令人印象深刻的AI處理能力。
MXM(移動PCIExpress模塊)加速器(有時集成NVIDIARTX技術(shù))也正在工業(yè)計算領(lǐng)域興起。這些緊湊、可拆卸的GPU模塊專為空間受限的系統(tǒng)而設(shè)計,無需占用全尺寸PCIe卡的空間,即可顯著提升圖形渲染和AI處理能力,使其成為需要增強邊緣AI加速的堅固耐用型嵌入式AI應(yīng)用的理想之選。
NvidiaJetson:適用于復(fù)雜AI模型的多功能高性能解決方案
對于超出NPU、iGPU或AI擴展卡能力范圍的工作負(fù)載,NvidiaJetson系列為工業(yè)AI推理和復(fù)雜的深度學(xué)習(xí)模型提供了強大且適應(yīng)性強的解決方案。Jetson平臺擁有廣泛的性能范圍和成熟的軟件生態(tài)系統(tǒng),非常適合深度學(xué)習(xí)模型、生成式AI、圖形渲染、大型語言模型(LLM)和自然語言處理等要求嚴(yán)苛的AI應(yīng)用。更重要的是,它們還解決了邊緣計算部署中傳統(tǒng)GPU所面臨的堅固耐用挑戰(zhàn)。
NVIDIAJetson系列涵蓋入門級JetsonNano、高性能JetsonOrinNX和AGXOrin。OrinAGX可提供強大的計算能力,適用于復(fù)雜的AI模型以及自動駕駛汽車、機器人技術(shù)和高級視頻分析等高要求應(yīng)用。Jetson還具有統(tǒng)一的軟件堆棧,簡化了跨不同Jetson平臺部署AI模型的過程。這為高要求AI工作負(fù)載在NPU、GPU和CPU之間做出選擇提供了強有力的替代方案。
為了充分利用這些AI加速器選項進(jìn)行工業(yè)AI推理,合適的軟件工具和框架至關(guān)重要。這些工具通常遵循三個階段的流程:
模型輸入:利用來自支持的訓(xùn)練框架的訓(xùn)練模型。
優(yōu)化:針對特定目標(biāo)硬件優(yōu)化和量化模型,以避免瓶頸。
部署:在目標(biāo)操作系統(tǒng)上部署準(zhǔn)備好的模型(運行時)。
每家集成加速器技術(shù)供應(yīng)商都提供了硬件加速支持的框架列表。以下是簡要概述,但不同操作系統(tǒng)的支持情況可能有所不同:
必須認(rèn)識到,iGPU、NPU和擴展卡并非適用于所有計算任務(wù)的通用解決方案。它們的原始計算能力可能并不總是能與高性能獨立GPU匹敵,這凸顯了優(yōu)化和基準(zhǔn)測試對于成功實現(xiàn)邊緣AI以及避免數(shù)據(jù)處理流程出現(xiàn)瓶頸的重要性。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點,我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請聯(lián)系后臺。
想要獲取半導(dǎo)體產(chǎn)業(yè)的前沿洞見、技術(shù)速遞、趨勢解析,關(guān)注我們!
葉琈珣 上一世善待姨娘, 友善庶妹, 卻不想, 姨娘偽善, 庶妹狠毒, 害她母親胞弟, 污蔑舅舅一家, 害其滿門將抄斬, 將她釘在地牢之中, 毀她絕世容顏 再次醒來, 她回到十五歲那年, 舅舅凱旋歸朝, 弟弟還健在, 一朝回京, 只為復(fù)仇, 姨娘人面獸心, 她就手撕面具 庶妹兩面三刀, 陰狠手辣, 她就步步回?fù)簦?刀刀致命。 渣爹虛偽, 她不再心慈手軟 因為她知道, 對敵人手軟, 就是將自己推向深淵, 萬劫不復(fù)。 這一世, 她寧愿負(fù)天下人, 不叫天下人負(fù)她; 這一世, 且看他翻手為云覆手為雨; 這一世, 他定要要扭轉(zhuǎn)乾坤! 一朝歸來, 滿城煙雨!來源:紅網(wǎng)
作者:市淼淼
編輯:法星漢
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。