向素懷
在全球人工智能大會WAIC2025上,AI智算中心超節(jié)點無疑是最火爆的話題。各家都在發(fā)布自己的超節(jié)點方案,其中華為昇騰384超節(jié)點作為官方認證鎮(zhèn)館之寶,成為各大媒體、國內(nèi)外觀眾的必打卡點之一。
在大模型時代,AI算力必須肩負起大規(guī)模并行計算的任務(wù)。依托單卡完成的AI計算必須走向集群化計算。產(chǎn)業(yè)界正在發(fā)生從萬卡集群向十萬卡集群演進的趨勢。而大規(guī)模AI集群,必須使用光互聯(lián)方案。隨著AI計算集群規(guī)模越來越大,性能越來越高,散熱和供電等問題會非常棘手。以光纖完成的光互聯(lián)可以減少線纜的利用,降低散熱、供電等方面的需求??梢哉f,光互聯(lián)是大規(guī)模AI集群組網(wǎng)的必選方案。
昇騰384超節(jié)點就是選擇了光互聯(lián)之路,才能馴服如此龐大的AI巨獸。昇騰384超節(jié)點采用了384顆昇騰NPU,用到了總長度達到316公里的3168根光纖,通過6912個星云光模塊實現(xiàn)NPU全MESH互聯(lián)。如此規(guī)模的光互聯(lián)組網(wǎng)中,光鏈路的端面臟污問題就成為計算系統(tǒng)能夠支持長穩(wěn)訓練的最大痛點。
(數(shù)據(jù)來源:2025芯光論壇,華為云)
一方面,端面臟污可能帶來計算集群的網(wǎng)絡(luò)閃斷頻發(fā)故障率奇高。根據(jù)2023年華為云現(xiàn)網(wǎng)2萬+個鏈路閃斷率統(tǒng)計分析,系統(tǒng)初始閃斷率達到37.27%,而光鏈路端面臟污是閃斷的主要根因。
端面臟污帶來的閃斷問題,可能給計算集群帶來的損失也非常大。根據(jù)科大訊飛萬卡集群分析,集群設(shè)備空轉(zhuǎn)7天的損失可以達到1548.61萬元。
而想要識別光鏈路的端面臟污,傳統(tǒng)方法現(xiàn)網(wǎng)運維存在著工程量和代價巨大的問題。傳統(tǒng)檢測手段檢出率只有48.3%,假如面對超節(jié)點超過11萬條光鏈路的工作量,傳統(tǒng)運維檢測方式根本無法入手。
昇騰384超節(jié)點想要實現(xiàn)以系統(tǒng)破單點的算力突圍,就必須克服掉光鏈接的運維與檢測難題。為此,超節(jié)點配置了6912個星云光模塊,實現(xiàn)了以智能運維檢測,突破AI算力極限的一次“逆襲”。
數(shù)智化系統(tǒng)的三要素是存、算、網(wǎng)。三者相輔相成,互為犄角。在大規(guī)模AI算力的集群式組網(wǎng)中,網(wǎng)絡(luò)聯(lián)接能力發(fā)揮著關(guān)鍵的作用,甚至可以成為破局的關(guān)鍵。在打造昇騰384超節(jié)點的過程中,華為在光通信領(lǐng)域的技術(shù)力得到了充分釋放,實現(xiàn)了以長板克短板的戰(zhàn)略化思維。而具體實現(xiàn)這一目標的技術(shù)王牌,就是華為星云光模塊。
昇騰384超節(jié)點能夠達成,依靠的是超大規(guī)模的光鏈路組網(wǎng)。每個昇騰384Pod配置了6912個星云400G光模塊,其中5376個用于scaleup,1536個用于scaleout網(wǎng)絡(luò)。
星云400G光模塊的作用在于可以有效解決智算中心網(wǎng)絡(luò)的一系列瓶頸與難題,實現(xiàn)超大規(guī)模AI計算集群的系統(tǒng)性突破。
其中,面向端面臟污等問題,星云光模塊極具創(chuàng)造性地實現(xiàn)了“星云智檢StarSensor”。
星云400G光模塊具備光口、電口健康度診斷、自動臟污檢測等功能。通過增強型光模塊級壓測,星云光模塊可以更容易識別出光鏈路臟污引起的突發(fā)誤碼,從而有效降低閃斷風險。根據(jù)相關(guān)數(shù)據(jù),星云400G光模塊的臟污檢測算法,可以實現(xiàn)光鏈路端口檢測準確率達到90+%,實現(xiàn)分鐘級檢測,從而解決現(xiàn)網(wǎng)閃斷的難題。
對端面臟污的高精準智能化識別,可以全面提升光鏈路的運維效率,讓超大規(guī)模AI算力真正落地,提升系統(tǒng)的可用性,實現(xiàn)了對超大規(guī)模AI計算集群的360°無死角防護。
開啟星云光模塊的星云智檢功能后,華為云現(xiàn)網(wǎng)數(shù)據(jù)表明鏈路故障報錯率降低了13.9倍。
星云光模塊的這道“光”,照亮了中國AI算力的前路。它支撐超節(jié)點成功構(gòu)筑了全球規(guī)模最大、技術(shù)力最為領(lǐng)先的AI計算集群,一舉超過了此前備受矚目的英偉達NVL72。更重要的是,它印證了以系統(tǒng)破單點這條AI算力路徑的可行。
在作為底座的AI算力層面,發(fā)現(xiàn)隨著華為昇騰384的出現(xiàn)與成熟,中美在AI算力領(lǐng)域呈現(xiàn)出各有所長,基本持平的發(fā)展態(tài)勢。憑借華為在光通信領(lǐng)域多年的積累,面向智算中心的AI原生光互聯(lián)解決方案星云光互聯(lián)成為一張王牌,幫助超節(jié)點構(gòu)筑起面向未來的AI算力底座。
以此為契機,中國的光通信產(chǎn)業(yè)正發(fā)生著快速的升級與迭代。伴隨著光進銅退的大勢所趨,光互聯(lián)成為AI算力發(fā)展的關(guān)鍵助力。星云光模塊不僅能夠幫助昇騰384超節(jié)點馴服AI算力的巨獸,更能夠幫助中國智算產(chǎn)業(yè)實現(xiàn)整體性的突破與升級。
未來的AI競賽,將會是結(jié)構(gòu)性、體系化的競賽。星云光互聯(lián)這樣的技術(shù)王牌,將會在可見的未來里發(fā)揮出更大的牽引效應(yīng),成為智算中心建設(shè)與AI計算集群組網(wǎng)過程中的標配。
逐“光”而行,正成為中國AI突破限制的可行之路。
聲明:個人原創(chuàng),僅供參考穿書文大合集,穿成惡毒女配,開啟逆襲之路!
秦臻被庶妹和未婚夫聯(lián)手害死,而君緋色因為偷看玄王洗澡,被一掌劈死_——?! ∏卣楸犻_眼發(fā)現(xiàn),她成了君緋色……(點擊下方免費閱讀)《嫡女重生:權(quán)臣的掌心寵》 作者:十七夜內(nèi)容簡介:沐云安前世識人不清,害的父母雙亡,自己容貌盡毀,一箭穿心而死!重生后,她下定決心改寫宿命,盯上了那個偏執(zhí)冷漠的少到此結(jié)束了?——_。
《大妝》也不敵,錦一的這部勵志權(quán)謀文,9.6分好評如潮!
哎呀,親們,這次我挖到寶了!一本古言小說,讀得我夜不能寐,簡直是古風愛好者的狂歡!字里行間透著的那股子韻味,讓人一秒穿越,愛恨情仇交織得恰到好處,每個角色都鮮活得仿佛就在眼前|。這書,不看?你絕對會錯過一場靈魂的盛宴,相信我,看完你會來感謝我的!《入贅后,權(quán)臣被嬌養(yǎng)了》作者:半世書生說完了_。
古代言情/權(quán)謀太子文合集200本
相信我,錯過它,你絕對會拍大腿后悔!趕緊加入書架吧!,一起沉醉在這段絕美古風之旅中吧!《農(nóng)門棄女》作者:圓圓小糖人兒第一章成了下堂婦(上)“水心被打成這樣,還被休回來成了下堂婦,她爹,你說咋辦呀!”林水心聽到一個女人哭哭啼啼地說。一個男人粗聲回:“咋辦?這都怪她自己!當初她要是后面會介紹————。
來源:紅網(wǎng)
作者:曹雅芬
編輯:蔣瑞彩
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。