李豐榮
本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自medium
HBM,如何推動AI發(fā)展?
高帶寬內(nèi)存(HBM)是下一代DRAM(動態(tài)隨機存取存儲器)技術(shù),可實現(xiàn)超高速和寬數(shù)據(jù)傳輸。
HBM的核心創(chuàng)新在于其獨特的3D堆疊結(jié)構(gòu),其中多個DRAM芯片(4層、8層甚至12層)使用先進的封裝技術(shù)垂直堆疊。3D結(jié)構(gòu)使HBM能夠以比GDDR等傳統(tǒng)內(nèi)存解決方案高得多的帶寬(數(shù)據(jù)傳輸速率)運行。
可以這樣想:HBM不是將所有內(nèi)存芯片并排布置在平板上,而是將它們像多層建筑一樣堆疊起來。這種垂直集成與復(fù)雜的電氣連接相結(jié)合,為數(shù)據(jù)創(chuàng)造了一條高速公路,從而能夠更快、更高效地與處理器進行通信。
為什么高帶寬內(nèi)存(HBM)對AI至關(guān)重要?
根據(jù)IDTechEx的報告,全球HBM市場將在未來十年內(nèi)增長15倍。這種爆炸式增長的核心在于高帶寬內(nèi)存(HBM)以超高帶寬和低延遲為圖形處理單元(GPU)提供海量數(shù)據(jù)流的獨特能力。
GPU與中央處理器
CPU(中央處理器)托管少數(shù)針對順序、邏輯復(fù)雜的任務(wù)進行了優(yōu)化的復(fù)雜內(nèi)核,而GPU則擁有數(shù)千個旨在并行處理數(shù)據(jù)的簡單內(nèi)核。每個CPU核心都具有強大的單線程性能和復(fù)雜的控制邏輯。然而,現(xiàn)代AI訓(xùn)練和推理涉及處理數(shù)TB的參數(shù)和中間激活,遠遠超出了幾個CPU內(nèi)核可以有效處理的范圍。
GPU專為圖形渲染和視頻編碼而設(shè)計,因此它們可以同時或并行處理大量相對簡單的計算。這種大規(guī)模并行架構(gòu)使GPU成為AI訓(xùn)練和推理的完美之選,這涉及以相對規(guī)則的計算模式(一次進行數(shù)百萬次乘加運算)處理大量數(shù)據(jù)集。這就是為什么GPU成為AI加速器的核心芯片。
內(nèi)存帶寬決定GPU速度
內(nèi)存帶寬是指內(nèi)存子系統(tǒng)每單位時間(通常為每秒)可以傳輸?shù)臄?shù)據(jù)總量。它直接測量處理器(如CPU或GPU)從連接的內(nèi)存(DRAM)讀取數(shù)據(jù)或?qū)⒔Y(jié)果寫入其的速度。
例如,如果內(nèi)存系統(tǒng)每秒可以可靠地傳輸100GB的數(shù)據(jù),則其帶寬為100GB/s。您可以使用以下公式粗略估計帶寬:
內(nèi)存帶寬(GB/s)=[總線寬度(位)×有效傳輸速率(GT/s)]÷8
BusWidth(bit)(總線寬度(位)):內(nèi)存接口一次可以并行傳輸多少位數(shù)據(jù)。更寬的公交車就像在數(shù)據(jù)高速公路上擁有更多的車道。例如,HBM2E的接口寬度可以達到1024位或更高,遠遠超過GDDR6的32位。
有效傳輸速率(Hz/GT/s):每秒數(shù)據(jù)傳輸作數(shù)?,F(xiàn)代高速內(nèi)存(如GDDR、HBM)通常使用雙倍數(shù)據(jù)速率(DDR)或四倍數(shù)據(jù)速率(QDR)技術(shù),在時鐘信號的上升沿和下降沿傳輸數(shù)據(jù)。
為了實現(xiàn)更高的內(nèi)存帶寬,您需要高有效傳輸速率(數(shù)據(jù)“運行速度快”)和寬總線寬度(許多“數(shù)據(jù)通道”)。
為什么HBM的Ultra-WideBus解決了內(nèi)存瓶頸
在AI應(yīng)用程序中,模型的參數(shù)可能為數(shù)百GB甚至TB。在計算過程中,GPU經(jīng)常與內(nèi)存交換大量參數(shù)和中間結(jié)果(激活、梯度)。
傳統(tǒng)系統(tǒng)將內(nèi)存分層到緩存(SRAM)→主內(nèi)存(DRAM)→存儲(SSD/HDD)中,但由于內(nèi)存壁問題和處理器利用率不足,當(dāng)今的AI和HPC工作負(fù)載暴露了這種層次結(jié)構(gòu)的限制。為了防止強大的GPU受到數(shù)據(jù)供應(yīng)的瓶頸(即避免“饑餓”的GPU),該行業(yè)正在重新劃分內(nèi)存堆棧:
封裝內(nèi)HBM:共同封裝的3D堆疊DRAM距離GPU芯片僅幾英寸。
CXL池內(nèi)存:跨加速器共享DDR池。
基于NAND的內(nèi)存:SLC優(yōu)化存儲和TLC/QLC,適用于較冷的數(shù)據(jù)層。
高帶寬內(nèi)存(HBM)具有更高的吞吐量,可以同時處理來自各個內(nèi)核的多個內(nèi)存請求。例如,HBM3E通過結(jié)合高速接口技術(shù),將其數(shù)據(jù)“高速公路”(總線寬度)大幅擴大到1,024甚至2,048位,從而使每個堆棧的速度達到1,225GB/s。
最新一代HBM3E使用帶有微凸塊和底部填充的熱壓縮來堆疊DRAM芯片,然而,SK海力士、三星和美光等制造商正在過渡到更先進的封裝技術(shù),例如HBM4及更高版本的銅-銅混合鍵合,以增加輸入/輸出、降低功耗、改善散熱、減小電極尺寸等。
視頻隨機存取存儲器(VRAM)的作用
專為GPU設(shè)計的高速內(nèi)存稱為VRAM(視頻隨機存取存儲器)。在當(dāng)今的高端AI和計算中,HBM是占主導(dǎo)地位的VRAM解決方案。
典型的顯卡(或AI加速器)由一個GPU芯片與VRAM模塊(通常是多個HBM堆棧)緊密耦合組成。
以下是GPU執(zhí)行計算時的典型數(shù)據(jù)流:
數(shù)據(jù)加載:用于計算的初始數(shù)據(jù)通過PCIe等接口從速度較慢、較大的CPU系統(tǒng)內(nèi)存(RAM)傳輸?shù)紾PU的專用高速VRAM(HBM)。
并行計算:GPU的眾多計算內(nèi)核從高速VRAM(HBM)讀取必要的數(shù)據(jù)段并執(zhí)行密集的并行計算(例如,矩陣乘法、卷積)。
結(jié)果暫存:計算的中間或最終結(jié)果快速寫回VRAM(HBM)進行臨時存儲。
數(shù)據(jù)輸出/保存:處理后的數(shù)據(jù)最終從VRAM(HBM)傳輸回CPU系統(tǒng)內(nèi)存(RAM)進行進一步處理或存儲,或者在某些情況下(如圖形輸出),直接從VRAM輸出到顯示接口。
在圖像識別、自然語言處理(NLP)和大型語言模型(LLM)訓(xùn)練/推理等AI任務(wù)中,模型涉及數(shù)十億甚至數(shù)萬億個參數(shù)。計算在很大程度上依賴于GPU內(nèi)核和VRAM之間持續(xù)、高速的數(shù)據(jù)交換。
因此,VRAM的性能,尤其是其高速讀寫海量數(shù)據(jù)的能力,直接決定了GPU整體計算效率的上限。如果GPU核心急需的數(shù)據(jù)(指令、參數(shù)、中間結(jié)果)由于內(nèi)存帶寬不足或高延遲而無法按時交付,則計算單元將卡頓,浪費寶貴的計算能力并妨礙最佳性能(形成“內(nèi)存墻”或內(nèi)存瓶頸)。
這就是為什么HBM憑借其出色的高帶寬(滿足數(shù)據(jù)吞吐量需求)和低延遲(減少內(nèi)核等待時間)已成為NVIDIAH100和AMDMI300X等高性能AI專用GPU不可替代的內(nèi)存解決方案。
近距離觀察HBM:3D結(jié)構(gòu)
HBM的核心創(chuàng)新在于其獨特的“3D”結(jié)構(gòu)。HBM不是傳統(tǒng)的平面存儲芯片,而是像摩天大樓一樣垂直堆疊多個標(biāo)準(zhǔn)DRAM芯片(稱為DRAM芯片)。然后,這些芯片通過密集的硅通孔(TSV)在垂直方向上電氣互連。
每個DRAM芯片都使用極薄的粘合劑材料進行粘合,最初通過微凸塊在各層之間互連。
HBM高性能的關(guān)鍵在于三個相互關(guān)聯(lián)的核心技術(shù)要素:
堆棧:垂直堆疊多層DRAM芯片可實現(xiàn)單位面積存儲容量的指數(shù)級增長(例如,8層堆棧提供的容量是單個芯片的8倍),節(jié)省空間并實現(xiàn)更大的容量。
TSV(硅通孔):在堆疊的DRAM芯片內(nèi)蝕刻小孔,并填充導(dǎo)電材料以形成垂直通道(直徑僅為5-10微米)。這種高密度、短距離的垂直布線直接連接上下層的信號、電源和接地線,實現(xiàn)了傳統(tǒng)平面布線無法實現(xiàn)的極寬總線寬度(超過1024位)。
中介層:一種精密的硅或有機襯底,可同時承載GPU芯片和HBM堆棧。它使用其表面和內(nèi)部高密度布線(走線寬度/間距低至微米級)在極短的距離內(nèi)將HBM堆棧的超寬接口與GPU芯片的高速I/O端口互連。
下圖說明了GDDR和HBM之間的基本結(jié)構(gòu)差異。
GDDR的工作原理是什么?
多個獨立的DRAM芯片(單個組件)在BGA封裝中平面排列,并安裝在PCB基板上的GPU芯片周圍。
每個DRAM組件都需要獨立、相對較長的PCB走線才能連接到GPU。這不僅會占用寶貴的PCB面積,增加電路板尺寸和成本,而且長走線會帶來顯著的信號傳輸延遲、信號完整性(SI)挑戰(zhàn)(如反射和串?dāng)_)和更高的驅(qū)動功耗。總線寬度受物理可路由通道數(shù)的限制(通常最大為256位或384位)。
HBM是如何工作的?
預(yù)先垂直堆疊的HBM模塊(包含多個DRAM芯片)與GPU芯片并排放置在相同的高密度中介層襯底上。
堆疊結(jié)構(gòu)本身大大節(jié)省了平面空間(利用Z軸)。因此,靠近GPU(在同一中介層上)導(dǎo)致極短的互連布線長度(毫米級甚至更短)和其他優(yōu)勢,包括:
超高空間利用率
海量存儲容量
超寬總線寬度(通過TSV和轉(zhuǎn)接板實現(xiàn))
超低信號延遲
出色的信號完整性
顯著降低通信功耗
綜上所述,HBM通過3D堆疊DRAM封裝并與GPU在2.5D中介層上緊密集成,完美克服了傳統(tǒng)GDDR的物理限制,從而在帶寬和革命性的能效方面實現(xiàn)了數(shù)量級的提升。
硅通孔(TSV)技術(shù)在高帶寬存儲器(HBM)中的重要性
在高帶寬存儲器(HBM)的堆疊結(jié)構(gòu)中,硅通孔(TSV)技術(shù)在實現(xiàn)DRAM芯片之間的垂直互連方面發(fā)揮著至關(guān)重要的作用。
TSV是蝕刻在硅芯片中的微孔(通常直徑為5-50微米),并填充有銅等導(dǎo)電材料,形成垂直電通道。這些互連具有幾個關(guān)鍵優(yōu)勢:
超短互連:TSV允許信號、電源和接地線直接垂直穿透硅芯片,在相鄰DRAM層之間提供盡可能短的電氣連接路徑(約50-100微米)。這繞過了傳統(tǒng)上使用的較長的引線鍵合或倒裝芯片互連方法,這些方法需要圍繞芯片邊緣進行布線。
高密度互連:芯片內(nèi)密集封裝了數(shù)千到數(shù)十萬個TSV,與平面封裝方法相比,HBM實現(xiàn)了更高的互連密度和并行通道數(shù)。這支持超寬總線寬度,例如1024位或2048位,這對于高帶寬至關(guān)重要。
高速、低功耗運行:較短的垂直連接路徑可顯著降低信號傳輸延遲,最大限度地減少信號衰減和失真,并降低驅(qū)動互連所需的功率。與具有較長封裝引線或PCB走線的傳統(tǒng)DRAM芯片布置相比,基于TSV的垂直互連可提供更快、更高效和低功耗的信號傳輸。
這種先進的垂直互連結(jié)構(gòu)是HBM能夠同時提供高存儲密度、超高帶寬和低功耗的基礎(chǔ)。
中介層在高帶寬存儲器(HBM)中的作用
HBM堆棧和GPU芯片不直接焊接到普通PCB上。相反,它們被共同集成到稱為中介層的精確中間襯底上。中介層本質(zhì)上是具有超精細(xì)布線能力(走線寬度/間距低至1微米或更?。┑臒o源硅襯底或高級有機襯底。
中介層在HBM系統(tǒng)中起著至關(guān)重要的作用:
BearingPlatform:它為GPU芯片和HBM堆棧芯片提供了一個物理安裝平臺。
超高密度互連:其核心價值在于能夠在其表面和內(nèi)部制造大量(數(shù)千到數(shù)萬個)非常窄間距(微米級)的金屬跡線(再分布層-RDL)。這些痕跡就像高架公路或密集的高速道路網(wǎng)絡(luò)。
連接橋:它使用這些超密集走線在非常短的距離(幾毫米到幾十毫米)內(nèi)以低損耗精確連接HBM堆棧的超寬接口(球柵陣列,通常包含數(shù)千個觸點)與GPU芯片的巨大高速I/O端口(微凸塊陣列)。
同樣,HBM實現(xiàn)超高帶寬的關(guān)鍵不僅僅是提高數(shù)據(jù)傳輸?shù)摹皢瓮ǖ浪俣取保〞r鐘頻率),而是通過使用TSV和中介層共同創(chuàng)建數(shù)量驚人的“并行數(shù)據(jù)通道”(即超寬總線寬度),從而能夠一次傳輸大量數(shù)據(jù)。
HBM設(shè)計面臨的主要挑戰(zhàn)是什么?
自第一代HBM以來,該技術(shù)已經(jīng)發(fā)展了六代,包括HBM2、HBM2E、HBM3、HBM3E和計劃中中的HBM4。隨著2025年HBM3E量產(chǎn)競爭的白熱化,下一代HBM4的競爭已經(jīng)開始。
在這種持續(xù)的技術(shù)升級中,封裝技術(shù)越來越成為競爭的焦點,尤其是在散熱瓶頸變得更加明顯的情況下。如果堆疊芯片的積熱不能得到有效控制,將直接導(dǎo)致性能下降、壽命縮短和功能異常。這使得熱管理以及容量和帶寬成為高級內(nèi)存開發(fā)的三個核心指標(biāo)之一。
作為HBM高速技術(shù)的基石,TSV(Through-SiliconVia)技術(shù)通過在DRAM芯片上蝕刻數(shù)千個微孔來構(gòu)建垂直電極通道,就像“HBM摩天大樓”中連接樓層的“高速電梯”一樣。
然而,隨著HBM3E中的堆疊層躍升至12層,散熱壓力和翹曲問題帶來了雙重挑戰(zhàn)。為了保持總厚度,DRAM芯片需要比8層HBM3薄40%,而減薄過程引入了與結(jié)構(gòu)變形相關(guān)的新技術(shù)障礙。
要突破堆疊超過12層的物理限制,混合鍵合技術(shù)可能成為必然選擇。雖然該解決方案可以實現(xiàn)微米級3D互連,但預(yù)計包裝成本會增加30%以上。
從HBM4到HBM8的長期路線圖
未來HBM的I/O數(shù)量將增加三倍,HBM5、HBM7和HBM8將增加三倍,同時堆棧層、單層容量和引腳速率也將得到改進。此外,鍵合技術(shù)將從目前的微凸塊過渡到銅對銅直接鍵合方法(混合鍵合)。然而,隨著這種代際演變的發(fā)生,HBM堆棧產(chǎn)生的熱量將逐漸增加,需要增強的熱管理。
HBM4:集成LPDDR控制器
在傳統(tǒng)的HBM堆棧中,通常具有定制的DRAM芯片。
然而,在HBM4中,HBM基礎(chǔ)芯片有望集成一個LPDDR控制器,為HBM存儲系統(tǒng)增加一個額外的層,并有效利用傳統(tǒng)配置中未使用的容量和帶寬資源。
HBM5:面向AI工作負(fù)載的NMC簡介
遷移到HBM5后,內(nèi)存堆棧預(yù)計將包含NMC(Near-MemoryComputing)模塊。這種集成將降低HBM和AIxPU之間的帶寬要求,改善計算定位,并提高整體系統(tǒng)性能和能效。
HBM6:雙塔結(jié)構(gòu)和NMC集成
目前,每個HBM堆棧都由一個BaseDie和一個單塔結(jié)構(gòu)的DRAM堆棧組成。
然而,對于HBM6,預(yù)計一個大型BaseDie將支持兩個DRAM堆棧,形成雙塔物理設(shè)計。
此外,NMC單元將位于堆棧下方。這一代還將看到從當(dāng)前的硅中介層/SiliconBridge連接過渡到硅玻璃復(fù)合中介層,以促進多個GPU模塊的集成。
HBM7:多層存儲系統(tǒng)和嵌入式冷卻
對于HBM7,預(yù)計有兩大發(fā)展:引入由HBM和HBF(高帶寬閃存)組成的多級存儲系統(tǒng),以及在DRAM堆棧中集成多功能橋接,以提高信號質(zhì)量并增加更多功能。
此外,還將引入嵌入式冷卻系統(tǒng),以解決這些系統(tǒng)的高性能功能產(chǎn)生的熱量。
HBM8:增強型芯片復(fù)合材料和集成冷卻
HBM8增加了一種復(fù)雜的芯片復(fù)合材料,它不僅利用了HBM內(nèi)存封裝的正面,而且還在背面集成了存儲擴展。此外,熱管理將緊密集成到結(jié)構(gòu)中,以應(yīng)對日益增長的熱量挑戰(zhàn)。
展望未來:HBM在AI計算中的未來
盡管高帶寬內(nèi)存(HBM)在AI計算中發(fā)揮著不可替代的作用,但高成本仍然是廣泛采用的重大障礙。
為了克服這一挑戰(zhàn),該行業(yè)可能會尋求兩條可能的途徑:
“HBM-Lite”的開發(fā):此版本旨在通過簡化當(dāng)前的HBM架構(gòu)來優(yōu)化成本,而不會為要求較低的應(yīng)用犧牲關(guān)鍵性能。
混合存儲架構(gòu):一種分層方法,在系統(tǒng)級別將HBM與傳統(tǒng)內(nèi)存類型(如DDR5和GDDR7)相結(jié)合。在這種設(shè)置中,HBM將管理“熱數(shù)據(jù)”——需要快速處理的高優(yōu)先級信息——而DDR5/GDDR7將處理“冷數(shù)據(jù)”,即不常訪問的信息。這種混合策略可以提供靈活的解決方案,從而有效滿足特定需求。對于高端AI訓(xùn)練,完整的HBM架構(gòu)將確保所需的吞吐量。對于邊緣推理,混合解決方案將優(yōu)化總擁有成本(TCO),平衡性能與經(jīng)濟性。
KAIST的長期路線圖強調(diào)了HBM令人興奮的未來,在內(nèi)存架構(gòu)、AI工作負(fù)載和散熱解決方案方面不斷進步。隨著這些創(chuàng)新的展開,HBM將不斷發(fā)展以滿足高帶寬、低延遲應(yīng)用不斷增長的需求,確保其在下一代計算的前沿地位。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點,我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請聯(lián)系后臺。
想要獲取半導(dǎo)體產(chǎn)業(yè)的前沿洞見、技術(shù)速遞、趨勢解析,關(guān)注我們!
火爆國內(nèi)外的最甜小說《殿下折腰:王妃權(quán)傾天下》,看完好想談戀愛
即便扶樂很著急,但是聽到扶芷的話之后,打消了過去的念頭||。(點擊全文免費閱讀)第三本:《殿下折腰:王妃權(quán)傾天下》短書評:世人都說皇三子驚才艷絕,深沉冷傲,從不將任何人事放在眼里??墒侵鼗钜皇阑貋淼乃齾s知道,上輩子他是如何為了她碎骨削肉|。血將流盡之際,還恨不得捧出心頭熱血來暖她。重活一世,..
言情小說《殿下折腰:王妃權(quán)傾天下》為什么令人眼前一亮
外頭小丫頭傳話,激得蘇瑜一個寒顫。她死死盯著門口,看見沈重霖溫潤儒雅的身形撩袍邁過門檻。這是她的丈夫,從嫁進沈家就讓她一直獨守空房到現(xiàn)在的丈夫?,F(xiàn)在是這太安鎮(zhèn)上的新進舉子,將來卻是以文韜武略、治世能臣聞名天下在四十六歲就榮登相位的沈相公——_。蘇瑜目光森冷的盯著他,他每靠近一步就逼得她想沖過去將等我繼續(xù)說。
小說:被二爺鴆殺后重生,王妃玩轉(zhuǎn)修羅場,權(quán)傾天下
(點擊即可免費閱讀)第二本:《權(quán)寵悍妻:我家王妃不好惹》作者:花蕁月夏介紹:重生歸來,再不依附任何人,步步為營,精心謀劃,然,當(dāng)權(quán)傾天下,卻早惹上無賴霸王離亦城。小娘子,你挖坑埋人,我清掃戰(zhàn)場-|。終有一日,她連他也一同埋了__。他爬起來,小娘子埋得好,本王其實也挖了一個大坑,于是,她與好了吧!
來源:紅網(wǎng)
作者:洪慧玲
編輯:衷德佑
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。