人生必備技能:3步學(xué)會(huì)做清醒夢(mèng),體驗(yàn)在夢(mèng)里當(dāng)神,但過(guò)度控夢(mèng)引發(fā)恐怖后果
MC精神分裂癥:當(dāng)整個(gè)世界全是精神分裂的幻象,我們?cè)撊绾紊?/a>
小時(shí)候農(nóng)村停電時(shí)#貓meme小劇場(chǎng)#回憶#童年#真實(shí)還原
iGPU、NPU和擴(kuò)展卡并非適用于所有計(jì)算任務(wù)的通用解決方案。
在邊緣部署人工智能(AI)面臨著獨(dú)特的硬件挑戰(zhàn)。雖然強(qiáng)大的圖形處理單元(GPU)在開(kāi)發(fā)中很常見(jiàn),但實(shí)際用例往往面臨尺寸、功耗、環(huán)境和預(yù)算方面的限制。這些限制使得獨(dú)立顯卡(有時(shí)簡(jiǎn)稱(chēng)為dGPU)與更節(jié)能的方案相比并非理想的解決方案。
然而,實(shí)現(xiàn)邊緣AI加速目標(biāo)仍然是可能的。讓我們探索邊緣AI領(lǐng)域NPU與GPU的演變格局,包括集成GPU(iGPU)、神經(jīng)處理單元(NPU)和擴(kuò)展卡,以了解它們?nèi)绾螡M(mǎn)足多樣化的工業(yè)AI推理和機(jī)器學(xué)習(xí)需求。
邊緣AI加速的動(dòng)態(tài)格局
通用GPU盡管擁有高性能潛力,但由于能效限制、對(duì)惡劣條件(灰塵、振動(dòng))的敏感性以及顯著的尺寸和成本影響,在大規(guī)模邊緣部署中往往舉步維艱。幸運(yùn)的是,邊緣AI加速器技術(shù)領(lǐng)域正在快速創(chuàng)新。對(duì)于數(shù)據(jù)中心以外的分布式架構(gòu),或需要平衡數(shù)據(jù)處理性能、成本和能效的輕量級(jí)AI應(yīng)用,仔細(xì)評(píng)估您的具體需求和工作負(fù)載至關(guān)重要。在堅(jiān)固耐用的無(wú)風(fēng)扇工業(yè)計(jì)算機(jī)中使用NPU等專(zhuān)用處理器,可以提高極端條件下的可靠性,并優(yōu)化各種計(jì)算任務(wù)的硬件成本。
與獨(dú)立的邊緣AI平臺(tái)相比,集成AI專(zhuān)用處理器、神經(jīng)處理單元(NPU)甚至MXM加速器等加速器,能夠精準(zhǔn)地為AI工作負(fù)載提供所需的計(jì)算能力。在選擇AI加速器時(shí),評(píng)估系統(tǒng)總成本和軟件框架生態(tài)系統(tǒng)至關(guān)重要。雖然AI擴(kuò)展卡可以提升性能,但它們也會(huì)顯著增加系統(tǒng)成本。通常,像iGPU和NPU這樣的集成解決方案,或像NVIDIAJetson這樣的專(zhuān)用平臺(tái),可以為許多用例提供更精簡(jiǎn)、更經(jīng)濟(jì)高效的方法。
NPU驅(qū)動(dòng)的AI:神經(jīng)網(wǎng)絡(luò)的高效片上加速
歷史上,強(qiáng)大的中央處理器(CPU)和GPU憑借其廣泛的軟件兼容性,主導(dǎo)了AI工作負(fù)載和算法。但集成顯卡和加速技術(shù)正在不斷發(fā)展,現(xiàn)代處理器和SoC提供了寶貴的板載工業(yè)AI推理和機(jī)器學(xué)習(xí)功能。
關(guān)鍵創(chuàng)新在于集成的NPU,例如英特爾AIBoost(第14代酷睿Ultra)和AMDXDNA(銳龍7000/8000系列)。這些專(zhuān)用協(xié)處理器具有專(zhuān)門(mén)的電路,用于神經(jīng)網(wǎng)絡(luò)所必需的矩陣乘法和張量運(yùn)算,可直接在處理器本身上加速深度學(xué)習(xí)。雖然它們的性能通常適用于后臺(tái)圖像處理、音頻處理和CPU卸載,但它們?yōu)檩p度至中度邊緣AI推理提供了低延遲、低功耗的解決方案,尤其是在空間受限或惡劣的環(huán)境中,功耗較低。
例如,NPU在低分辨率視頻中的實(shí)時(shí)物體檢測(cè)或語(yǔ)音識(shí)別等特定任務(wù)上表現(xiàn)出色,通??商峁└哌_(dá)數(shù)TOP的AI性能,因此在智能手機(jī)和物聯(lián)網(wǎng)設(shè)備等支持AI的消費(fèi)電子產(chǎn)品中廣受歡迎。這凸顯了NPU與GPU在特定邊緣計(jì)算用例中的關(guān)鍵區(qū)別。
iGPU:經(jīng)常被忽視的并行處理AI資源
英特爾Arc和AMDRadeonAI等現(xiàn)代集成GPU(iGPU)在工業(yè)AI推理甚至部分模型訓(xùn)練方面擁有驚人的能力。其并行處理架構(gòu)使其能夠處理種類(lèi)繁多的AI任務(wù),其性能通常超出了通用計(jì)算領(lǐng)域的普遍認(rèn)知。對(duì)于需要中等AI性能的AI應(yīng)用而言,利用iGPU是一種經(jīng)濟(jì)高效且節(jié)能的方法。
這些iGPU代表了基礎(chǔ)顯卡的重大升級(jí),專(zhuān)為并行計(jì)算而設(shè)計(jì),并在性能和能效之間實(shí)現(xiàn)了平衡。例如,英特爾ArcGPU可以實(shí)現(xiàn)數(shù)十TOPs的計(jì)算能力,適用于視頻分析、圖像識(shí)別、圖像處理、視頻編輯,甚至輕量級(jí)機(jī)器學(xué)習(xí)推理。當(dāng)NPU性能不足,而專(zhuān)用GPU的功耗、空間或成本又無(wú)法滿(mǎn)足需求時(shí),這些改進(jìn)使其成為一個(gè)可行的選擇。NPU與GPU之間的性能差異在此更加清晰,尤其是在考慮工作負(fù)載時(shí)。
AI擴(kuò)展卡:通過(guò)專(zhuān)用處理器實(shí)現(xiàn)目標(biāo)性能
雖然NPU和iGPU能夠顯著提升邊緣AI性能,但配備專(zhuān)用處理器的專(zhuān)用AI擴(kuò)展卡可以進(jìn)一步提升特定任務(wù)和AI工作負(fù)載的性能。M.2模塊(例如Hailo-8邊緣AI處理器)提供了一種便捷的方式來(lái)提升強(qiáng)大的計(jì)算能力。與谷歌的TPU(張量處理單元)相比,Hailo-8在功耗相似的情況下,性能顯著提升(26TOPsvs.4TOPs)。
例如,OnLogic的ML100G-56集成了Hailo-8卡,為適合多樣化部署的超緊湊工業(yè)計(jì)算平臺(tái)添加了令人印象深刻的AI處理能力。
MXM(移動(dòng)PCIExpress模塊)加速器(有時(shí)集成NVIDIARTX技術(shù))也正在工業(yè)計(jì)算領(lǐng)域興起。這些緊湊、可拆卸的GPU模塊專(zhuān)為空間受限的系統(tǒng)而設(shè)計(jì),無(wú)需占用全尺寸PCIe卡的空間,即可顯著提升圖形渲染和AI處理能力,使其成為需要增強(qiáng)邊緣AI加速的堅(jiān)固耐用型嵌入式AI應(yīng)用的理想之選。
NvidiaJetson:適用于復(fù)雜AI模型的多功能高性能解決方案
對(duì)于超出NPU、iGPU或AI擴(kuò)展卡能力范圍的工作負(fù)載,NvidiaJetson系列為工業(yè)AI推理和復(fù)雜的深度學(xué)習(xí)模型提供了強(qiáng)大且適應(yīng)性強(qiáng)的解決方案。Jetson平臺(tái)擁有廣泛的性能范圍和成熟的軟件生態(tài)系統(tǒng),非常適合深度學(xué)習(xí)模型、生成式AI、圖形渲染、大型語(yǔ)言模型(LLM)和自然語(yǔ)言處理等要求嚴(yán)苛的AI應(yīng)用。更重要的是,它們還解決了邊緣計(jì)算部署中傳統(tǒng)GPU所面臨的堅(jiān)固耐用挑戰(zhàn)。
NVIDIAJetson系列涵蓋入門(mén)級(jí)JetsonNano、高性能JetsonOrinNX和AGXOrin。OrinAGX可提供強(qiáng)大的計(jì)算能力,適用于復(fù)雜的AI模型以及自動(dòng)駕駛汽車(chē)、機(jī)器人技術(shù)和高級(jí)視頻分析等高要求應(yīng)用。Jetson還具有統(tǒng)一的軟件堆棧,簡(jiǎn)化了跨不同Jetson平臺(tái)部署AI模型的過(guò)程。這為高要求AI工作負(fù)載在NPU、GPU和CPU之間做出選擇提供了強(qiáng)有力的替代方案。
為了充分利用這些AI加速器選項(xiàng)進(jìn)行工業(yè)AI推理,合適的軟件工具和框架至關(guān)重要。這些工具通常遵循三個(gè)階段的流程:
模型輸入:利用來(lái)自支持的訓(xùn)練框架的訓(xùn)練模型。
優(yōu)化:針對(duì)特定目標(biāo)硬件優(yōu)化和量化模型,以避免瓶頸。
部署:在目標(biāo)操作系統(tǒng)上部署準(zhǔn)備好的模型(運(yùn)行時(shí))。
每家集成加速器技術(shù)供應(yīng)商都提供了硬件加速支持的框架列表。以下是簡(jiǎn)要概述,但不同操作系統(tǒng)的支持情況可能有所不同:
必須認(rèn)識(shí)到,iGPU、NPU和擴(kuò)展卡并非適用于所有計(jì)算任務(wù)的通用解決方案。它們的原始計(jì)算能力可能并不總是能與高性能獨(dú)立GPU匹敵,這凸顯了優(yōu)化和基準(zhǔn)測(cè)試對(duì)于成功實(shí)現(xiàn)邊緣AI以及避免數(shù)據(jù)處理流程出現(xiàn)瓶頸的重要性。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀(guān)點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。
想要獲取半導(dǎo)體產(chǎn)業(yè)的前沿洞見(jiàn)、技術(shù)速遞、趨勢(shì)解析,關(guān)注我們!
《三國(guó)之鐵騎縱橫》群雄割據(jù),戰(zhàn)火紛飛,萬(wàn)里山河盡染血
《三國(guó)之鐵騎縱橫》,怎么就成了年度黑馬?
《三國(guó)之鐵騎縱橫》,為何只看一章就停不下來(lái)了?