貿(mào)琳瑜
iGPU、NPU和擴展卡并非適用于所有計算任務的通用解決方案。
在邊緣部署人工智能(AI)面臨著獨特的硬件挑戰(zhàn)。雖然強大的圖形處理單元(GPU)在開發(fā)中很常見,但實際用例往往面臨尺寸、功耗、環(huán)境和預算方面的限制。這些限制使得獨立顯卡(有時簡稱為dGPU)與更節(jié)能的方案相比并非理想的解決方案。
然而,實現(xiàn)邊緣AI加速目標仍然是可能的。讓我們探索邊緣AI領(lǐng)域NPU與GPU的演變格局,包括集成GPU(iGPU)、神經(jīng)處理單元(NPU)和擴展卡,以了解它們?nèi)绾螡M足多樣化的工業(yè)AI推理和機器學習需求。
邊緣AI加速的動態(tài)格局
通用GPU盡管擁有高性能潛力,但由于能效限制、對惡劣條件(灰塵、振動)的敏感性以及顯著的尺寸和成本影響,在大規(guī)模邊緣部署中往往舉步維艱。幸運的是,邊緣AI加速器技術(shù)領(lǐng)域正在快速創(chuàng)新。對于數(shù)據(jù)中心以外的分布式架構(gòu),或需要平衡數(shù)據(jù)處理性能、成本和能效的輕量級AI應用,仔細評估您的具體需求和工作負載至關(guān)重要。在堅固耐用的無風扇工業(yè)計算機中使用NPU等專用處理器,可以提高極端條件下的可靠性,并優(yōu)化各種計算任務的硬件成本。
與獨立的邊緣AI平臺相比,集成AI專用處理器、神經(jīng)處理單元(NPU)甚至MXM加速器等加速器,能夠精準地為AI工作負載提供所需的計算能力。在選擇AI加速器時,評估系統(tǒng)總成本和軟件框架生態(tài)系統(tǒng)至關(guān)重要。雖然AI擴展卡可以提升性能,但它們也會顯著增加系統(tǒng)成本。通常,像iGPU和NPU這樣的集成解決方案,或像NVIDIAJetson這樣的專用平臺,可以為許多用例提供更精簡、更經(jīng)濟高效的方法。
NPU驅(qū)動的AI:神經(jīng)網(wǎng)絡的高效片上加速
歷史上,強大的中央處理器(CPU)和GPU憑借其廣泛的軟件兼容性,主導了AI工作負載和算法。但集成顯卡和加速技術(shù)正在不斷發(fā)展,現(xiàn)代處理器和SoC提供了寶貴的板載工業(yè)AI推理和機器學習功能。
關(guān)鍵創(chuàng)新在于集成的NPU,例如英特爾AIBoost(第14代酷睿Ultra)和AMDXDNA(銳龍7000/8000系列)。這些專用協(xié)處理器具有專門的電路,用于神經(jīng)網(wǎng)絡所必需的矩陣乘法和張量運算,可直接在處理器本身上加速深度學習。雖然它們的性能通常適用于后臺圖像處理、音頻處理和CPU卸載,但它們?yōu)檩p度至中度邊緣AI推理提供了低延遲、低功耗的解決方案,尤其是在空間受限或惡劣的環(huán)境中,功耗較低。
例如,NPU在低分辨率視頻中的實時物體檢測或語音識別等特定任務上表現(xiàn)出色,通??商峁└哌_數(shù)TOP的AI性能,因此在智能手機和物聯(lián)網(wǎng)設備等支持AI的消費電子產(chǎn)品中廣受歡迎。這凸顯了NPU與GPU在特定邊緣計算用例中的關(guān)鍵區(qū)別。
iGPU:經(jīng)常被忽視的并行處理AI資源
英特爾Arc和AMDRadeonAI等現(xiàn)代集成GPU(iGPU)在工業(yè)AI推理甚至部分模型訓練方面擁有驚人的能力。其并行處理架構(gòu)使其能夠處理種類繁多的AI任務,其性能通常超出了通用計算領(lǐng)域的普遍認知。對于需要中等AI性能的AI應用而言,利用iGPU是一種經(jīng)濟高效且節(jié)能的方法。
這些iGPU代表了基礎(chǔ)顯卡的重大升級,專為并行計算而設計,并在性能和能效之間實現(xiàn)了平衡。例如,英特爾ArcGPU可以實現(xiàn)數(shù)十TOPs的計算能力,適用于視頻分析、圖像識別、圖像處理、視頻編輯,甚至輕量級機器學習推理。當NPU性能不足,而專用GPU的功耗、空間或成本又無法滿足需求時,這些改進使其成為一個可行的選擇。NPU與GPU之間的性能差異在此更加清晰,尤其是在考慮工作負載時。
AI擴展卡:通過專用處理器實現(xiàn)目標性能
雖然NPU和iGPU能夠顯著提升邊緣AI性能,但配備專用處理器的專用AI擴展卡可以進一步提升特定任務和AI工作負載的性能。M.2模塊(例如Hailo-8邊緣AI處理器)提供了一種便捷的方式來提升強大的計算能力。與谷歌的TPU(張量處理單元)相比,Hailo-8在功耗相似的情況下,性能顯著提升(26TOPsvs.4TOPs)。
例如,OnLogic的ML100G-56集成了Hailo-8卡,為適合多樣化部署的超緊湊工業(yè)計算平臺添加了令人印象深刻的AI處理能力。
MXM(移動PCIExpress模塊)加速器(有時集成NVIDIARTX技術(shù))也正在工業(yè)計算領(lǐng)域興起。這些緊湊、可拆卸的GPU模塊專為空間受限的系統(tǒng)而設計,無需占用全尺寸PCIe卡的空間,即可顯著提升圖形渲染和AI處理能力,使其成為需要增強邊緣AI加速的堅固耐用型嵌入式AI應用的理想之選。
NvidiaJetson:適用于復雜AI模型的多功能高性能解決方案
對于超出NPU、iGPU或AI擴展卡能力范圍的工作負載,NvidiaJetson系列為工業(yè)AI推理和復雜的深度學習模型提供了強大且適應性強的解決方案。Jetson平臺擁有廣泛的性能范圍和成熟的軟件生態(tài)系統(tǒng),非常適合深度學習模型、生成式AI、圖形渲染、大型語言模型(LLM)和自然語言處理等要求嚴苛的AI應用。更重要的是,它們還解決了邊緣計算部署中傳統(tǒng)GPU所面臨的堅固耐用挑戰(zhàn)。
NVIDIAJetson系列涵蓋入門級JetsonNano、高性能JetsonOrinNX和AGXOrin。OrinAGX可提供強大的計算能力,適用于復雜的AI模型以及自動駕駛汽車、機器人技術(shù)和高級視頻分析等高要求應用。Jetson還具有統(tǒng)一的軟件堆棧,簡化了跨不同Jetson平臺部署AI模型的過程。這為高要求AI工作負載在NPU、GPU和CPU之間做出選擇提供了強有力的替代方案。
為了充分利用這些AI加速器選項進行工業(yè)AI推理,合適的軟件工具和框架至關(guān)重要。這些工具通常遵循三個階段的流程:
模型輸入:利用來自支持的訓練框架的訓練模型。
優(yōu)化:針對特定目標硬件優(yōu)化和量化模型,以避免瓶頸。
部署:在目標操作系統(tǒng)上部署準備好的模型(運行時)。
每家集成加速器技術(shù)供應商都提供了硬件加速支持的框架列表。以下是簡要概述,但不同操作系統(tǒng)的支持情況可能有所不同:
必須認識到,iGPU、NPU和擴展卡并非適用于所有計算任務的通用解決方案。它們的原始計算能力可能并不總是能與高性能獨立GPU匹敵,這凸顯了優(yōu)化和基準測試對于成功實現(xiàn)邊緣AI以及避免數(shù)據(jù)處理流程出現(xiàn)瓶頸的重要性。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點,我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯(lián)系后臺。
想要獲取半導體產(chǎn)業(yè)的前沿洞見、技術(shù)速遞、趨勢解析,關(guān)注我們!
小說:豪門棄子十年歸,戰(zhàn)神為婿護紅顏,財權(quán)無雙震天下
《豪婿戰(zhàn)神》作者:一杯奶茶第1章歸來仍是少年晉東市,國際機場。數(shù)十位黑衣男子,涌入機場大廳,氣場嚴肅,排成兩排,周圍人紛紛避之,是何人有這么大的牌面?機場端口,沈八荒緩緩走出,而站在數(shù)十位黑衣男子前方一位西裝男人,走到他身前三米處,低頭道:“沈少爺,歡迎回家,老爺說完了。想你很久了_?!薄?.
十年默等,豪門棄子戰(zhàn)神歸,他甘愿為婿,誓要還她十年心愿!
高光作品《豪婿戰(zhàn)神》,少年,你不按套路出牌的樣子真的很靚仔《豪婿戰(zhàn)神》作者:一杯奶茶
新書推薦——豪婿戰(zhàn)神
小說:豪婿戰(zhàn)神,打破世俗偏見,不離不棄守護自己愛的女人今日推薦:《豪婿戰(zhàn)神》作者:夜青鋒_|。點擊文末超鏈接開始觀看吧~第011章殺雞儆猴說完,她推開了薛濤,奔向了會議室。薛濤吐了口氣,念叨個不停:“此處不留爺自有留爺處!沈夢琪,還有那個狗仗人勢的窩囊廢洛鋒,你倆等著瞧!”會議室——_。沈夢琪坐說完了。
來源:紅網(wǎng)
作者:國雅容
編輯:滕欣德
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。