剛落幕的2025世界人工智能大會暨人工智能全球治理高級別會議(WAIC)上,華為展臺展出一整面昇騰384超節(jié)點的“墻”。記者看到,不斷有觀眾與之合影。
超節(jié)點(SuperPod)成為本屆WAIC的熱點。除了華為,WAIC期間,上海儀電還聯(lián)合曦智科技、壁仞科技、中興通訊發(fā)布國內(nèi)首個光互連光交換GPU超節(jié)點光躍LightSphereX,新華三推出H3CUniPoDS80000超節(jié)點,超聚變也展出了超節(jié)點方案。業(yè)內(nèi)人士預計這波超節(jié)點熱度會延續(xù)下去。
超節(jié)點是一種應對大算力集群芯片協(xié)同問題的方案。通過整合算力芯片資源,在一個超節(jié)點內(nèi)構建低延遲、高帶寬的算力實體,讓單個超節(jié)點盡可能大地釋放算力,避免芯片空閑,提高算力利用效率,支撐千億乃至萬億參數(shù)模型的訓練和推理。
即便是在單顆算力芯片制程受限的情況下,超節(jié)點技術也能讓集群性能繼續(xù)提升。壁仞科技OCS超節(jié)點項目相關負責人董朝鋒告訴記者,在國內(nèi),做超節(jié)點已經(jīng)是個明顯的趨勢,隨著算力集群邁入“萬卡協(xié)同”時代,探討未來算力的構建范式演進非常重要。
超節(jié)點為什么火了?
從千卡集群到萬卡集群、十萬卡集群,算力芯片集群越來越大,是因為大模型越來越大,參數(shù)量已經(jīng)邁向萬億。要怎么做好算力支撐,業(yè)內(nèi)不得不思考這個問題。
英偉達是較早布局超節(jié)點技術的代表廠商。英偉達GB300NVLink72可以將72個GPU和36個CPU整合到單一平臺。近期在布局超節(jié)點的國內(nèi)廠商則包括AI芯片廠商和服務器廠商。
有芯片業(yè)內(nèi)人士向記者舉例,一個萬億參數(shù)模型訓練可能是這樣的:粗略估算需要1萬張GPU,但為了具備容錯能力,要有超過1萬張GPU。此外,要具備多個超節(jié)點,每個超節(jié)點內(nèi)有幾十張GPU,超節(jié)點內(nèi)部也有冗余、容錯能力,包括秒級容錯和分鐘級故障恢復能力、調(diào)度能力。調(diào)度能力是指將萬億參數(shù)模型的訓練分布到每個GPU上做并行計算。
在這個萬卡算力芯片集群中,超節(jié)點是一個很核心的概念。董朝鋒告訴記者,如果單機8卡可以跑一個70億參數(shù)的模型,當模型參數(shù)達到千億、萬億,就需要更多GPU服務器。然而,傳統(tǒng)AI服務器的scaleout(橫向拓展)互連由于線性度關系會導致算力性能的損失。在沒有超節(jié)點的情況下,機柜之間由于線性度的影響會有算力性能損失,導致“1+1”無法等于“2”。但如果有超節(jié)點,則能保證單個節(jié)點內(nèi)的性能最優(yōu)。
有從業(yè)者告訴記者,如果沒有超節(jié)點,一個機箱單機8卡,只能做到每2卡之間的帶寬、通信延遲一致。董朝鋒告訴記者,超節(jié)點有兩條路線,一是scaleout橫向拓展,二是scaleup縱向拓展??v向拓展即在一個節(jié)點內(nèi)盡可能多地增加GPU,例如一個千卡集群中,每64卡是一個超節(jié)點,在這個超節(jié)點中,可以做到卡間、機間的通訊帶寬、通訊基本一致。
超節(jié)點技術中,光互連是主流方向之一,屬于光通信范疇。光互連有全光交換、全光互連、光互連電交換路線。業(yè)內(nèi)人士告訴記者,與光互連電交換相比,光互連光交換可以依托于光芯片,將電交換能力轉化成光交換能力,光的切換是納秒級,因此可以靈活切換拓撲且?guī)捿^高。光通信可保證集群與集群之間高帶寬、低延遲。
此次上海儀電聯(lián)合曦智科技、壁仞科技、中興通訊發(fā)布的超節(jié)點方案就采用分布式光互連光交換技術,該方案使用曦智科技的光互連光交換芯片和壁仞科技的GPU液冷模組,搭載中興通訊的AI服務器。新華三推出的超節(jié)點產(chǎn)品則基于以太協(xié)議和PCIe協(xié)議,可適用多種算力芯片,適用萬億級參數(shù)大模型訓練和推理。此外,WAIC上展出的華為昇騰384超節(jié)點可通過總線技術實現(xiàn)384個NPU(神經(jīng)網(wǎng)絡處理器)之間的大帶寬低時延互連。
超節(jié)點在國內(nèi)越來越受到關注,其背后,是因為超節(jié)點技術成為提升芯片制程之外,另一條能提高芯片集群性能的路徑。隨著摩爾定律面臨“失靈”風險,推進芯片制程演進的難度增大,提升單顆芯片的計算性能面臨挑戰(zhàn),業(yè)界需要尋找新的方法來繼續(xù)提升算力。
董朝鋒告訴記者,在芯片提升制程之外,超節(jié)點技術是能讓集群性能提升的方法之一。短期內(nèi),國產(chǎn)AI芯片在制程工藝上與世界頂尖水平存在客觀差距,國內(nèi)廠商可以通過超節(jié)點方案部署更大規(guī)模的芯片集群來彌補單點性能的不足,以量補質(zhì),也能通過超節(jié)點技術讓集群性能繼續(xù)提升。其中光芯片也可以不依賴于高制程。
有業(yè)內(nèi)人士告訴記者,英偉達的互連方案相對封閉,自有GPU、配套軟硬件,國內(nèi)一些廠商則在做開放生態(tài)。相較英偉達全套自研的路線,國內(nèi)還沒有類似英偉達這樣成系統(tǒng)的技術體系。近期國內(nèi)很多廠商包括服務器廠商都在推廣超節(jié)點,各家路線各不完全一樣,還需要時間來證明技術優(yōu)劣。總體而言,國內(nèi)光通信技術在全球比較領先,與海外先進水平相比沒有明顯代差。
應對市場競爭
今年國產(chǎn)芯片在AI服務器中的占比已在提升。TrendForce集邦咨詢數(shù)據(jù)顯示,去年國內(nèi)AI服務器芯片中,外購部分(包括英偉達、AMD)所占市場份額為63%。該機構最新預計,外購部分今年的占比將降至49%。
即便如此,海外芯片廠商仍重視中國市場。英偉達CEO黃仁勛在本月早些時候表示,英偉達將推出面向中國市場的全新GPU。
除了通過互連技術優(yōu)化提升芯片集群的效率,國內(nèi)芯片廠商在芯片設計、市場策略上也在尋找方法,應對市場競爭。
墨芯人工智能此次在WAIC上展出了S40等計算卡。該公司相關負責人告訴記者,與英偉達的競爭不能只在產(chǎn)品性能上下功夫,還可以采取迂回競爭的策略。英偉達的GPU是通用型GPU,可用于訓練和推理,不會針對一些垂直行業(yè)專門作出改變,但國產(chǎn)芯片可以有一些改變。該公司的產(chǎn)品針對推理做了優(yōu)化,集中面向AI推理場景,例如邊緣計算一體機,在特定場景下可以有更快計算速度和更低功耗。
上述公司相關負責人告訴記者,很多芯片廠商主要面向稠密計算需求,該公司則采用軟硬件結合的策略,在軟件算法上采用稀疏計算技術。與稠密計算的卡不同,面向稀疏計算的卡對制程的要求不高,可以采用12nm制程。目前公司的產(chǎn)品比較適用于特定場景的小模型運算,后續(xù)將推出的新產(chǎn)品則定義為廣義稀疏的產(chǎn)品,適用于大模型計算。
其他一些國產(chǎn)芯片廠商也避開了與海外AI芯片巨頭的直接競爭。
云天勵飛同樣選擇了AI推理場景。該公司在WAIC期間宣布將全面聚焦AI芯片,未來將重點圍繞邊緣計算、云端大模型推理和具身智能領域布局。云天勵飛董事長兼CEO陳寧表示,云側推理更多考慮多用戶并行情況下的芯片硬件采購成本、集群電費等運營成本,邊緣計算則對芯片硬件采購成本更敏感,且更注重芯片與場景結合時的有效算力。他判斷,以AI大模型和各類AI算法、推理芯片為核心的AI技術,將在未來五年重新定義人類所有的電子產(chǎn)品。
后摩智能近日則推出新一代芯片,面向端邊場景。該公司新一代端邊大模型AI芯片后摩漫界M50在INT8精度下的算力為160TOPS,在bFP16精度下的算力為100TFLOPS。目前該公司的芯片面向平板、PC等消費終端,以及智能語音會議系統(tǒng)、運營商邊緣計算場景。該公司還采用存算一體技術,解決傳統(tǒng)芯片數(shù)據(jù)傳輸慢、功耗較高的問題。
后摩智能創(chuàng)始人、CEO吳強表示,定位端邊大模型計算,一定程度上避開了和巨頭競爭高壁壘產(chǎn)品和已固化的市場,此外,還可以發(fā)揮存算一體技術的優(yōu)勢,在新興的AIPC、智能語音設備、具身智能等新興賽道找到位置。
黑龍江中醫(yī)藥大學針灸推拿學考研(705中醫(yī)綜合)經(jīng)驗分享