鄭心
21世紀(jì)經(jīng)濟報道記者雷晨上海報道
在AI浪潮的洶涌推動下,大模型的迅猛發(fā)展對算力提出了近乎苛刻的要求。萬億參數(shù)大模型與多模態(tài)訓(xùn)練的興起,促使算力集群跑步邁入“萬卡協(xié)同”時代。
傳統(tǒng)算力架構(gòu)已難以滿足高效、低耗、大規(guī)模協(xié)同的AI訓(xùn)練需求,行業(yè)亟需一場技術(shù)革新。在此背景下,超節(jié)點(SuperPod)——這一由英偉達率先提出的ScaleUp(縱向擴展)解決方案,憑借其高性能、低成本、高能效等優(yōu)勢,迅速成為全球科技巨頭競逐的“新戰(zhàn)場”。
據(jù)中科院物理所介紹,超節(jié)點的英文名叫SuperPod,是英偉達最先提出的概念。作為ScaleUp的當(dāng)前最優(yōu)解,它通過內(nèi)部高速總線互連,能夠有效支撐并行計算任務(wù),加速GPU之間的參數(shù)交換和數(shù)據(jù)同步,縮短大模型的訓(xùn)練周期。
在2025世界人工智能大會期間,從華為昇騰384超節(jié)點的“真機首秀”,到曦智科技光互連方案的“SAIL獎?wù)酃稹?,中國企業(yè)在超節(jié)點領(lǐng)域的全面開花,不僅標(biāo)志著算力集群正式邁入“萬卡協(xié)同”時代,更預(yù)示著AI基礎(chǔ)設(shè)施的競爭已從單點突破升級為系統(tǒng)工程級的生態(tài)較量。
超節(jié)點成AI算力“新寵”?
超節(jié)點,究竟好在哪里?
一般而言,構(gòu)建大規(guī)模GPU集群,行業(yè)主要采用ScaleOut(橫向擴展)以及ScaleUp(縱向擴展)兩種方式。
有業(yè)內(nèi)人士指出,相較于傳統(tǒng)方案ScaleOut,ScaleUp在性能、成本、組網(wǎng)、運維等方面存在優(yōu)勢。而超節(jié)點就是ScaleUp的最佳方案。
“超節(jié)點架構(gòu)通過深度整合GPU資源,在超節(jié)點內(nèi)構(gòu)建起低延遲、高帶寬的統(tǒng)一算力實體,已成為支撐這一演進的關(guān)鍵技術(shù)路徑?!北谪鹂萍糘CS超節(jié)點項目相關(guān)負責(zé)人董朝鋒對21世紀(jì)經(jīng)濟報道記者表示。
“當(dāng)前傳統(tǒng)風(fēng)冷AI服務(wù)器的功率密度已逼近極限。一個標(biāo)準(zhǔn)機柜塞滿8張高功耗GPU服務(wù)器,其散熱和供電挑戰(zhàn)巨大?!倍h指出。
在他看來,超節(jié)點通過液冷等先進散熱技術(shù),將數(shù)十甚至上百個計算單元整合在一個高度集成的機柜或機組中,極大地提升了算力密度和能源效率(PUE)。
以其與曦智科技、中興通訊聯(lián)合推出的國內(nèi)首個光互連光交換GPU超節(jié)點——光躍LightSphereX為例,董朝鋒指出,針對包含Deepseek的大模型訓(xùn)練與推理需求,該方案可顯著縮短訓(xùn)練時間、降低算力成本。
與此同時,他提到,作為滬設(shè)滬造的標(biāo)桿項目,該方案將有效推動上海本地光芯片、液冷技術(shù)、GPU模組等產(chǎn)業(yè)的協(xié)同發(fā)展,形成“技術(shù)-產(chǎn)品-服務(wù)”的閉環(huán)生態(tài)。此外,光交換芯片的低功耗特性及液冷技術(shù)的應(yīng)用,助力數(shù)據(jù)中心綠色轉(zhuǎn)型,符合國家“雙碳”目標(biāo)。
中信建投研報對超節(jié)點市場前景持樂觀態(tài)度。其指出,超節(jié)點作為重要的產(chǎn)業(yè)趨勢,已經(jīng)被國內(nèi)外眾多服務(wù)器選為下一代方案,同時大部分的超節(jié)點方案都會采用銅連接作為主要承載載體。
當(dāng)前,通信網(wǎng)絡(luò)中常見的連接方案包括光通信和高速電通信,無源DAC作為電通信的主要解決方案,不包含光電轉(zhuǎn)換器模塊,具有很高的成本效益和運營可靠性,成為實現(xiàn)短距離傳輸?shù)膬?yōu)秀解決方案。
目前的銅纜已經(jīng)實現(xiàn)224G以太網(wǎng)SerDes高速通信技術(shù)升級,短距離傳輸性價比突出,在AI服務(wù)器高集成度的趨勢下,銅連接呈現(xiàn)一定的趨勢放量。
當(dāng)前,業(yè)界主流的超節(jié)點方案主要包括私有協(xié)議方案和開放組織方案兩種,私有協(xié)議主要包括英偉達、Trainium方案、華為方案等。
“在英偉達方案中,GB200NVL72服務(wù)器采用大量的銅連接作為機柜內(nèi)部通訊方式,GB200NVL72機柜中不同的計算托盤間采用電纜進行互聯(lián),內(nèi)部使用電纜長度累計接近2英里,共有5000多條獨立電纜?!鄙鲜鲅袌笾赋?。
而計算托盤內(nèi)同樣采用大量銅連接作為服務(wù)器內(nèi)的GPU芯片互聯(lián)。在開放協(xié)議中,目前的開放標(biāo)準(zhǔn)不止一個,基本上都是以以太網(wǎng)技術(shù)(ETH)為基礎(chǔ),以太網(wǎng)技術(shù)最成熟、最開放,也擁有最多的參與企業(yè)。
超節(jié)點開放標(biāo)準(zhǔn)方面,中心建投指出,比較有代表性的是由開放數(shù)據(jù)中心委員會(ODCC)主導(dǎo)、中國信通院與騰訊牽頭設(shè)計的ETH-X開放超節(jié)點項目。在ETH-X的架構(gòu)中,分為ScaleUp和ScaleOut兩個主要組網(wǎng)部分,其中ScaleUp網(wǎng)絡(luò)負責(zé)HBD內(nèi)部GPU之間的互聯(lián),HBD可以由一個或者多個高功率Rack組成,通過ScaleUp進行擴展;多個HBD通過ScaleOut的擴展方式組成更大的GPU集群。
值得注意的是,該機構(gòu)提到,國內(nèi)字節(jié)、阿里、騰訊新一代服務(wù)器分別采用超節(jié)點設(shè)計,預(yù)期將進一步帶動銅連接整體市場空間。
科技企業(yè)紛紛布局
面對超節(jié)點這一算力新領(lǐng)域,國內(nèi)科技企業(yè)積極布局。
其中,華為在超節(jié)點領(lǐng)域進展顯著。今年5月23日,華為于鯤鵬昇騰開發(fā)者大會上發(fā)布昇騰384超節(jié)點,實現(xiàn)業(yè)界最大規(guī)模的384卡高速總線互聯(lián),具備超大帶寬、超低時延、超強性能的三大優(yōu)勢。
據(jù)介紹,昇騰384超節(jié)點由12個計算柜和4個總線柜構(gòu)成,集成384個昇騰910CNPU和192個鯤鵬920CPU。其打破了馮諾依曼架構(gòu),創(chuàng)造性設(shè)計了對等計算架構(gòu),通過高速總線互聯(lián)技術(shù)實現(xiàn)技術(shù)上的重要突破。
通過系統(tǒng)工程的優(yōu)化,實現(xiàn)資源的高效調(diào)度,更好的滿足了模型訓(xùn)練和推理對低時延、大帶寬、長穩(wěn)可靠的要求。
在2025世界人工智能大會上,華為首次展示了為昇騰384超節(jié)點真機,并且獲評“WAIC鎮(zhèn)館之寶”。
除了昇騰384之外,大會上,曦智科技聯(lián)合壁仞科技、中興通訊推出全球首個分布式光互連光交換GPU超節(jié)點解決方案——光躍LightSphereX,并獲世界人工智能大會最高獎項——卓越人工智能引領(lǐng)者獎(SuperAlLeader,簡稱SAIL獎)。
記者獲悉,該超節(jié)點基于曦智科技分布式光交換技術(shù),采用硅光技術(shù)的光互連光交換芯片和壁仞科技大算力通用GPU液冷模組等構(gòu)建,具備高帶寬、低延遲、靈活可擴展等特點。
與此同時,曦智科技與沐曦合作的光互連電交換超節(jié)點方案也在會上首次公開亮相,進一步豐富了超節(jié)點的技術(shù)路線。?
而燧原科技的云燧ESL超節(jié)點系統(tǒng),在測試中表現(xiàn)出良好性能,單節(jié)點最高64卡全帶寬互聯(lián),采用液冷方案,目標(biāo)是高性價比、高密度、高能效。據(jù)稱可實現(xiàn)9216GB單節(jié)點存儲容量、230TB/s單節(jié)點存儲帶寬、51.2TB/s單節(jié)點聚合帶寬、單節(jié)點可支持PD分離優(yōu)化。
而沐曦發(fā)布的旗艦GPU曦云C600,支持MetaXLink超節(jié)點擴展技術(shù),并且內(nèi)置ECC/RAS多重安全防護模塊,旨在為金融、政務(wù)等關(guān)鍵領(lǐng)域提供高可靠算力基座,滿足下一代生成式AI的訓(xùn)練和推理需求。
此外,記者獲悉,摩爾線程已經(jīng)建立了涵蓋AI訓(xùn)練智算卡、AI推理卡、AI超節(jié)點服務(wù)器及夸娥(KUAE)智算集群在內(nèi)的全棧AI智算產(chǎn)品線。
在2025世界人工智能大會召開前夕,摩爾線程創(chuàng)始人兼CEO張建中提出構(gòu)建新一代AI訓(xùn)練基礎(chǔ)設(shè)施,為AGI時代打造生產(chǎn)先進模型的“超級工廠”。
據(jù)張建中介紹,這座“AI工廠”的智能“產(chǎn)能”,由五大核心要素共同決定,其效率公式可概括為:AI工廠生產(chǎn)效率=加速計算通用性×單芯片有效算力×單節(jié)點效率×集群效率×集群穩(wěn)定性。
他指出,當(dāng)單節(jié)點效率達到新高度,如何實現(xiàn)大規(guī)模集群的高效協(xié)作成為新的挑戰(zhàn)。摩爾線程自研KUAE計算集群通過5D大規(guī)模分布式并行計算技術(shù),實現(xiàn)上千節(jié)點的高效協(xié)作,推動AI基礎(chǔ)設(shè)施從單點優(yōu)化邁向系統(tǒng)工程級突破。
在業(yè)內(nèi)人士看來,當(dāng)單點突破升維為體系化競爭力,中國超節(jié)點技術(shù)正在為全球人工智能發(fā)展鋪設(shè)一條兼具性能與包容性的新賽道,其價值有望持續(xù)釋放。
來源:紅網(wǎng)
作者:劉星峰
編輯:紹安歌
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。