今年6月,華為CEO任正非接受人民日?qǐng)?bào)采訪時(shí)曾表示,芯片問(wèn)題其實(shí)沒(méi)必要擔(dān)心,用疊加和集群等方法,計(jì)算結(jié)果上與最先進(jìn)水平是相當(dāng)?shù)摹?/p>
“我們單芯片還是落后美國(guó)一代,我們用數(shù)學(xué)補(bǔ)物理、非摩爾補(bǔ)摩爾,用群計(jì)算補(bǔ)單芯片,在結(jié)果上也能達(dá)到實(shí)用狀況?!彼f(shuō)。
如今,這句話已經(jīng)應(yīng)驗(yàn)。
7月26日,2025世界人工智能大會(huì)(WAIC)在上海世博中心啟幕,華為首次線下展出昇騰384超節(jié)點(diǎn),即Atlas900A3SuperPoD,該產(chǎn)品基于超節(jié)點(diǎn)架構(gòu),通過(guò)總線技術(shù)實(shí)現(xiàn)384個(gè)NPU之間的大帶寬低時(shí)延互聯(lián),解決集群內(nèi)計(jì)算、存儲(chǔ)等各資源之間的通信瓶頸。
通過(guò)系統(tǒng)工程的優(yōu)化,實(shí)現(xiàn)資源的高效調(diào)度,讓超節(jié)點(diǎn)像一臺(tái)計(jì)算機(jī)一樣工作。
在今年5月的鯤鵬昇騰開(kāi)發(fā)者大會(huì)上,華為推出了昇騰超節(jié)點(diǎn)(CloudMatrix384),成功實(shí)現(xiàn)業(yè)界最大規(guī)模的384卡高速總線互聯(lián)。昇騰超節(jié)點(diǎn)具備超大帶寬、超低時(shí)延、超強(qiáng)性能的三大優(yōu)勢(shì),包括多款訓(xùn)練和推理產(chǎn)品,基于超節(jié)點(diǎn)創(chuàng)新架構(gòu),更好的滿足模型訓(xùn)練和推理對(duì)低時(shí)延,大帶寬,長(zhǎng)穩(wěn)可靠的要求。
本月初,華為云官微通過(guò)一段視頻展示了CloudMatrix384超節(jié)點(diǎn)算力集群的威力——
384顆昇騰NPU(昇騰910C)+192顆鯤鵬CPU全對(duì)等互聯(lián),形成一臺(tái)“超級(jí)AI服務(wù)器”;
業(yè)界最大單卡推理吞吐量——2300Tokens/s;
業(yè)界最大集群算力——16萬(wàn)卡,萬(wàn)卡線性度高達(dá)95%;
云上確定性運(yùn)維-40天長(zhǎng)穩(wěn)訓(xùn)練、10分鐘快速恢復(fù)。
華為云表示,新一代昇騰AI云服務(wù),是最適合大模型應(yīng)用的算力服務(wù)。
簡(jiǎn)單來(lái)說(shuō),華為CloudMatrix并非簡(jiǎn)單的“堆卡”,而是通過(guò)高帶寬全對(duì)等互聯(lián)(Peer-to-Peer)來(lái)設(shè)計(jì),這也是CloudMatrix384硬件架構(gòu)的一大創(chuàng)新。
傳統(tǒng)的AI集群中,CPU相當(dāng)于公司領(lǐng)導(dǎo)的角色,NPU等其它硬件更像是下屬,數(shù)據(jù)傳輸?shù)倪^(guò)程中就需要CPU審批和簽字,效率就會(huì)大打折扣。
但在CloudMatrix384中,CPU和NPU等硬件更像是一個(gè)扁平化管理的團(tuán)隊(duì),它們之間的地位比較平等,直接通過(guò)UB網(wǎng)絡(luò)通信直接對(duì)話,效率自然就上來(lái)了。
今年4月份,國(guó)際知名半導(dǎo)體研究和咨詢機(jī)構(gòu)SemiAnalysis發(fā)布專(zhuān)題報(bào)道稱(chēng),華為云最新推出的AI算力集群解決方案CloudMatrix384(簡(jiǎn)稱(chēng)CM384)憑借其顛覆性的系統(tǒng)架構(gòu)設(shè)計(jì)與全棧技術(shù)創(chuàng)新,在多項(xiàng)關(guān)鍵指標(biāo)上實(shí)現(xiàn)對(duì)英偉達(dá)旗艦產(chǎn)品GB200NVL72的超越,標(biāo)志著中國(guó)在人工智能基礎(chǔ)設(shè)施領(lǐng)域?qū)崿F(xiàn)里程碑式突破。
據(jù)SemiAnalysis披露,華為云CM384基于384顆昇騰芯片構(gòu)建,通過(guò)全互連拓?fù)浼軜?gòu)實(shí)現(xiàn)芯片間高效協(xié)同,可提供高達(dá)300PFLOPs的密集BF16算力,接近達(dá)到英偉達(dá)GB200NVL72系統(tǒng)的兩倍。此外,CM384在內(nèi)存容量和帶寬方面同樣占據(jù)優(yōu)勢(shì),總內(nèi)存容量超出英偉達(dá)方案3.6倍,內(nèi)存帶寬也達(dá)到2.1倍,為大規(guī)模AI訓(xùn)練和推理提供了更高效的硬件支持。
(圖片引自SemiAnalysis報(bào)道)
報(bào)道分析稱(chēng),盡管單顆昇騰芯片性能約為英偉達(dá)Blackwell架構(gòu)GPU的三分之一,但華為通過(guò)規(guī)?;到y(tǒng)設(shè)計(jì),成功實(shí)現(xiàn)整體算力躍升,并在超大規(guī)模模型訓(xùn)練、實(shí)時(shí)推理等場(chǎng)景中展現(xiàn)更強(qiáng)競(jìng)爭(zhēng)力。
SemiAnalysis也指出,華為的工程優(yōu)勢(shì)不僅體現(xiàn)在芯片層面,更在于系統(tǒng)級(jí)的創(chuàng)新,包括網(wǎng)絡(luò)架構(gòu)、光學(xué)互聯(lián)和軟件優(yōu)化,使得CM384能夠充分發(fā)揮集群算力,滿足超大規(guī)模AI計(jì)算需求。
此次華為云CloudMatrix384的發(fā)布,標(biāo)志著中國(guó)在AI計(jì)算系統(tǒng)領(lǐng)域已具備與國(guó)際巨頭正面競(jìng)爭(zhēng)的實(shí)力。
SemiAnalysis在報(bào)道中特別指出,華為的規(guī)?;鉀Q方案“領(lǐng)先于英偉達(dá)和AMD目前市場(chǎng)上的產(chǎn)品一代”,并認(rèn)為中國(guó)在AI基礎(chǔ)設(shè)施上的突破將對(duì)全球AI產(chǎn)業(yè)格局產(chǎn)生深遠(yuǎn)影響。
6本口碑年代文,女主重生穿成炮灰女配,打臉虐渣手撕白蓮花!爽
小說(shuō):前世毒婦含冤死,重生手撕白蓮花,醫(yī)妃甜寵抱回家
女主有心機(jī)的重生復(fù)仇文:逆襲不算本事,手撕白蓮、虐渣男才夠爽
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。