浙江迎戰(zhàn)臺(tái)風(fēng)竹節(jié)草
成都地鐵官方回應(yīng)“防走光”設(shè)計(jì)
距離神作只差營(yíng)銷?羅小黑到底好在哪?丨《羅小黑》美學(xué)解析
河南一家女兒患暴發(fā)性心肌炎去世后,兒子又患同種病進(jìn) ICU,什么是暴發(fā)性心肌炎?孩子接連患病有關(guān)聯(lián)嗎?
剛落幕的2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議(WAIC)上,華為展臺(tái)展出一整面昇騰384超節(jié)點(diǎn)的“墻”。記者看到,不斷有觀眾與之合影。
超節(jié)點(diǎn)(SuperPod)成為本屆WAIC的熱點(diǎn)。除了華為,WAIC期間,上海儀電還聯(lián)合曦智科技、壁仞科技、中興通訊發(fā)布國(guó)內(nèi)首個(gè)光互連光交換GPU超節(jié)點(diǎn)光躍LightSphereX,新華三推出H3CUniPoDS80000超節(jié)點(diǎn),超聚變也展出了超節(jié)點(diǎn)方案。業(yè)內(nèi)人士預(yù)計(jì)這波超節(jié)點(diǎn)熱度會(huì)延續(xù)下去。
超節(jié)點(diǎn)是一種應(yīng)對(duì)大算力集群芯片協(xié)同問題的方案。通過整合算力芯片資源,在一個(gè)超節(jié)點(diǎn)內(nèi)構(gòu)建低延遲、高帶寬的算力實(shí)體,讓單個(gè)超節(jié)點(diǎn)盡可能大地釋放算力,避免芯片空閑,提高算力利用效率,支撐千億乃至萬億參數(shù)模型的訓(xùn)練和推理。
即便是在單顆算力芯片制程受限的情況下,超節(jié)點(diǎn)技術(shù)也能讓集群性能繼續(xù)提升。壁仞科技OCS超節(jié)點(diǎn)項(xiàng)目相關(guān)負(fù)責(zé)人董朝鋒告訴記者,在國(guó)內(nèi),做超節(jié)點(diǎn)已經(jīng)是個(gè)明顯的趨勢(shì),隨著算力集群邁入“萬卡協(xié)同”時(shí)代,探討未來算力的構(gòu)建范式演進(jìn)非常重要。
超節(jié)點(diǎn)為什么火了?
從千卡集群到萬卡集群、十萬卡集群,算力芯片集群越來越大,是因?yàn)榇竽P驮絹碓酱?,參?shù)量已經(jīng)邁向萬億。要怎么做好算力支撐,業(yè)內(nèi)不得不思考這個(gè)問題。
英偉達(dá)是較早布局超節(jié)點(diǎn)技術(shù)的代表廠商。英偉達(dá)GB300NVLink72可以將72個(gè)GPU和36個(gè)CPU整合到單一平臺(tái)。近期在布局超節(jié)點(diǎn)的國(guó)內(nèi)廠商則包括AI芯片廠商和服務(wù)器廠商。
有芯片業(yè)內(nèi)人士向記者舉例,一個(gè)萬億參數(shù)模型訓(xùn)練可能是這樣的:粗略估算需要1萬張GPU,但為了具備容錯(cuò)能力,要有超過1萬張GPU。此外,要具備多個(gè)超節(jié)點(diǎn),每個(gè)超節(jié)點(diǎn)內(nèi)有幾十張GPU,超節(jié)點(diǎn)內(nèi)部也有冗余、容錯(cuò)能力,包括秒級(jí)容錯(cuò)和分鐘級(jí)故障恢復(fù)能力、調(diào)度能力。調(diào)度能力是指將萬億參數(shù)模型的訓(xùn)練分布到每個(gè)GPU上做并行計(jì)算。
在這個(gè)萬卡算力芯片集群中,超節(jié)點(diǎn)是一個(gè)很核心的概念。董朝鋒告訴記者,如果單機(jī)8卡可以跑一個(gè)70億參數(shù)的模型,當(dāng)模型參數(shù)達(dá)到千億、萬億,就需要更多GPU服務(wù)器。然而,傳統(tǒng)AI服務(wù)器的scaleout(橫向拓展)互連由于線性度關(guān)系會(huì)導(dǎo)致算力性能的損失。在沒有超節(jié)點(diǎn)的情況下,機(jī)柜之間由于線性度的影響會(huì)有算力性能損失,導(dǎo)致“1+1”無法等于“2”。但如果有超節(jié)點(diǎn),則能保證單個(gè)節(jié)點(diǎn)內(nèi)的性能最優(yōu)。
有從業(yè)者告訴記者,如果沒有超節(jié)點(diǎn),一個(gè)機(jī)箱單機(jī)8卡,只能做到每2卡之間的帶寬、通信延遲一致。董朝鋒告訴記者,超節(jié)點(diǎn)有兩條路線,一是scaleout橫向拓展,二是scaleup縱向拓展??v向拓展即在一個(gè)節(jié)點(diǎn)內(nèi)盡可能多地增加GPU,例如一個(gè)千卡集群中,每64卡是一個(gè)超節(jié)點(diǎn),在這個(gè)超節(jié)點(diǎn)中,可以做到卡間、機(jī)間的通訊帶寬、通訊基本一致。
超節(jié)點(diǎn)技術(shù)中,光互連是主流方向之一,屬于光通信范疇。光互連有全光交換、全光互連、光互連電交換路線。業(yè)內(nèi)人士告訴記者,與光互連電交換相比,光互連光交換可以依托于光芯片,將電交換能力轉(zhuǎn)化成光交換能力,光的切換是納秒級(jí),因此可以靈活切換拓?fù)淝規(guī)捿^高。光通信可保證集群與集群之間高帶寬、低延遲。
此次上海儀電聯(lián)合曦智科技、壁仞科技、中興通訊發(fā)布的超節(jié)點(diǎn)方案就采用分布式光互連光交換技術(shù),該方案使用曦智科技的光互連光交換芯片和壁仞科技的GPU液冷模組,搭載中興通訊的AI服務(wù)器。新華三推出的超節(jié)點(diǎn)產(chǎn)品則基于以太協(xié)議和PCIe協(xié)議,可適用多種算力芯片,適用萬億級(jí)參數(shù)大模型訓(xùn)練和推理。此外,WAIC上展出的華為昇騰384超節(jié)點(diǎn)可通過總線技術(shù)實(shí)現(xiàn)384個(gè)NPU(神經(jīng)網(wǎng)絡(luò)處理器)之間的大帶寬低時(shí)延互連。
超節(jié)點(diǎn)在國(guó)內(nèi)越來越受到關(guān)注,其背后,是因?yàn)槌?jié)點(diǎn)技術(shù)成為提升芯片制程之外,另一條能提高芯片集群性能的路徑。隨著摩爾定律面臨“失靈”風(fēng)險(xiǎn),推進(jìn)芯片制程演進(jìn)的難度增大,提升單顆芯片的計(jì)算性能面臨挑戰(zhàn),業(yè)界需要尋找新的方法來繼續(xù)提升算力。
董朝鋒告訴記者,在芯片提升制程之外,超節(jié)點(diǎn)技術(shù)是能讓集群性能提升的方法之一。短期內(nèi),國(guó)產(chǎn)AI芯片在制程工藝上與世界頂尖水平存在客觀差距,國(guó)內(nèi)廠商可以通過超節(jié)點(diǎn)方案部署更大規(guī)模的芯片集群來彌補(bǔ)單點(diǎn)性能的不足,以量補(bǔ)質(zhì),也能通過超節(jié)點(diǎn)技術(shù)讓集群性能繼續(xù)提升。其中光芯片也可以不依賴于高制程。
有業(yè)內(nèi)人士告訴記者,英偉達(dá)的互連方案相對(duì)封閉,自有GPU、配套軟硬件,國(guó)內(nèi)一些廠商則在做開放生態(tài)。相較英偉達(dá)全套自研的路線,國(guó)內(nèi)還沒有類似英偉達(dá)這樣成系統(tǒng)的技術(shù)體系。近期國(guó)內(nèi)很多廠商包括服務(wù)器廠商都在推廣超節(jié)點(diǎn),各家路線各不完全一樣,還需要時(shí)間來證明技術(shù)優(yōu)劣??傮w而言,國(guó)內(nèi)光通信技術(shù)在全球比較領(lǐng)先,與海外先進(jìn)水平相比沒有明顯代差。
應(yīng)對(duì)市場(chǎng)競(jìng)爭(zhēng)
今年國(guó)產(chǎn)芯片在AI服務(wù)器中的占比已在提升。TrendForce集邦咨詢數(shù)據(jù)顯示,去年國(guó)內(nèi)AI服務(wù)器芯片中,外購(gòu)部分(包括英偉達(dá)、AMD)所占市場(chǎng)份額為63%。該機(jī)構(gòu)最新預(yù)計(jì),外購(gòu)部分今年的占比將降至49%。
即便如此,海外芯片廠商仍重視中國(guó)市場(chǎng)。英偉達(dá)CEO黃仁勛在本月早些時(shí)候表示,英偉達(dá)將推出面向中國(guó)市場(chǎng)的全新GPU。
除了通過互連技術(shù)優(yōu)化提升芯片集群的效率,國(guó)內(nèi)芯片廠商在芯片設(shè)計(jì)、市場(chǎng)策略上也在尋找方法,應(yīng)對(duì)市場(chǎng)競(jìng)爭(zhēng)。
墨芯人工智能此次在WAIC上展出了S40等計(jì)算卡。該公司相關(guān)負(fù)責(zé)人告訴記者,與英偉達(dá)的競(jìng)爭(zhēng)不能只在產(chǎn)品性能上下功夫,還可以采取迂回競(jìng)爭(zhēng)的策略。英偉達(dá)的GPU是通用型GPU,可用于訓(xùn)練和推理,不會(huì)針對(duì)一些垂直行業(yè)專門作出改變,但國(guó)產(chǎn)芯片可以有一些改變。該公司的產(chǎn)品針對(duì)推理做了優(yōu)化,集中面向AI推理場(chǎng)景,例如邊緣計(jì)算一體機(jī),在特定場(chǎng)景下可以有更快計(jì)算速度和更低功耗。
上述公司相關(guān)負(fù)責(zé)人告訴記者,很多芯片廠商主要面向稠密計(jì)算需求,該公司則采用軟硬件結(jié)合的策略,在軟件算法上采用稀疏計(jì)算技術(shù)。與稠密計(jì)算的卡不同,面向稀疏計(jì)算的卡對(duì)制程的要求不高,可以采用12nm制程。目前公司的產(chǎn)品比較適用于特定場(chǎng)景的小模型運(yùn)算,后續(xù)將推出的新產(chǎn)品則定義為廣義稀疏的產(chǎn)品,適用于大模型計(jì)算。
其他一些國(guó)產(chǎn)芯片廠商也避開了與海外AI芯片巨頭的直接競(jìng)爭(zhēng)。
云天勵(lì)飛同樣選擇了AI推理場(chǎng)景。該公司在WAIC期間宣布將全面聚焦AI芯片,未來將重點(diǎn)圍繞邊緣計(jì)算、云端大模型推理和具身智能領(lǐng)域布局。云天勵(lì)飛董事長(zhǎng)兼CEO陳寧表示,云側(cè)推理更多考慮多用戶并行情況下的芯片硬件采購(gòu)成本、集群電費(fèi)等運(yùn)營(yíng)成本,邊緣計(jì)算則對(duì)芯片硬件采購(gòu)成本更敏感,且更注重芯片與場(chǎng)景結(jié)合時(shí)的有效算力。他判斷,以AI大模型和各類AI算法、推理芯片為核心的AI技術(shù),將在未來五年重新定義人類所有的電子產(chǎn)品。
后摩智能近日則推出新一代芯片,面向端邊場(chǎng)景。該公司新一代端邊大模型AI芯片后摩漫界M50在INT8精度下的算力為160TOPS,在bFP16精度下的算力為100TFLOPS。目前該公司的芯片面向平板、PC等消費(fèi)終端,以及智能語(yǔ)音會(huì)議系統(tǒng)、運(yùn)營(yíng)商邊緣計(jì)算場(chǎng)景。該公司還采用存算一體技術(shù),解決傳統(tǒng)芯片數(shù)據(jù)傳輸慢、功耗較高的問題。
后摩智能創(chuàng)始人、CEO吳強(qiáng)表示,定位端邊大模型計(jì)算,一定程度上避開了和巨頭競(jìng)爭(zhēng)高壁壘產(chǎn)品和已固化的市場(chǎng),此外,還可以發(fā)揮存算一體技術(shù)的優(yōu)勢(shì),在新興的AIPC、智能語(yǔ)音設(shè)備、具身智能等新興賽道找到位置。
女閻王穿越成廢物丑女,逆襲成召喚師,卻被皇叔逆天寵
4本狂妃穿越文:丑成這樣,就不信你能下得了口!
《獸黑狂妃:皇叔逆天寵》一言不合就親親,傲嬌王爺歡樂多