智東西作者陳駿達編輯漠影
隨著大模型的快速演進和模型參數(shù)規(guī)模的快速增長,AI算力需求正呈現(xiàn)爆發(fā)式態(tài)勢。然而,支撐芯片發(fā)展的摩爾定律已逼近物理極限,晶體管微縮帶來的成本呈指數(shù)級上升,性能提升幅度卻逐年收窄。
這一根本性矛盾促使業(yè)界亟需探索一種能繼續(xù)擴展AI基礎設施的解決方案。超節(jié)點技術應運而生,通過數(shù)十張乃至數(shù)百張加速卡的高帶寬互連,將相對獨立的計算資源整合為統(tǒng)一的超級計算單元,突破了傳統(tǒng)架構在規(guī)模擴展上的瓶頸。
不過,在國內(nèi)環(huán)境中,由于高端算力的缺乏,國產(chǎn)超節(jié)點方案往往需要整合更大規(guī)模的集群,這對互連技術提出了更高的要求。在帶寬、能耗、傳輸距離上較傳統(tǒng)電互連方案更具優(yōu)勢的光學方案的應用,有望逐步成為推動超節(jié)點性能提升的關鍵驅動力。
就在昨天,國內(nèi)光電混合算力獨角獸曦智科技在世界人工智能大會(WAIC)上發(fā)布了國內(nèi)首個光互連光交換GPU超節(jié)點光躍LightSphereX,并聯(lián)合壁仞科技、中興通訊首次進行示范應用,即將于上海儀電國產(chǎn)超節(jié)點算力集群落地。
憑借全球首創(chuàng)的分布式光交換技術,光躍LightSphereX獲得世界人工智能大會的最高獎項,2025SAIL獎,并成為SAIL四大評價維度(Superior,Application,Innovation,Leading)中“Innovation”(創(chuàng)新)維度的標桿案例。
近日,智東西與曦智科技創(chuàng)始人兼CEO沈亦晨博士、曦智科技聯(lián)合創(chuàng)始人兼CTO孟懷宇博士以及曦智科技互連產(chǎn)品線副總裁朱劍進行了近2個小時的深入溝通,他們向智東西等媒體剖析了光躍LightSphereX背后的技術創(chuàng)新與曦智科技對光電混合算力行業(yè)的長期展望。
一、超節(jié)點互連技術路徑分野,國產(chǎn)方案如何突圍
當下,海外的超節(jié)點方案基本由英偉達主導,使用電交換構建單柜達72卡的大規(guī)模超節(jié)點,也就是所謂的GB200NVL72。
該解決方案依賴于一個在國內(nèi)看來幾乎有些“奢侈”的前提——每張GB200的算力數(shù)倍于國產(chǎn)卡。若要實現(xiàn)同等效果,國產(chǎn)超節(jié)點可能需要進行成百上千卡的互連,在現(xiàn)有條件下,基本難以在單機柜內(nèi)實現(xiàn)。
即便從理論上可行,單機柜內(nèi)構建如此密集的電互連方案本身也面臨極高的技術挑戰(zhàn)和投入成本,對于目前國內(nèi)的產(chǎn)業(yè)基礎來說,依然是一項極具挑戰(zhàn)性的任務。
因此,國產(chǎn)解決方案更可行的路徑或許是通過增加機柜數(shù)量,先確保計算卡的總量,再通過高效互連技術組成超節(jié)點。
沈亦晨博士稱,在多機柜場景下,傳統(tǒng)的銅導線連接距離一旦超過1-1.5米,就無法滿足超節(jié)點對帶寬和延時的嚴苛要求,光互連幾乎成為必選項。
谷歌曾在其TPU光互連超節(jié)點方案采用集中式光交換,實現(xiàn)GPU集群間的跨機柜通信。不過,該方案專為TPU定制,硬件成本高昂,對全棧軟件能力要求較高,目前除了谷歌外尚未有其他廠商采用。
前段時間帶火超節(jié)點概念的華為昇騰CloudMatrix384超節(jié)點,也使用了光互連網(wǎng)絡,配備近7000個光模塊,讓數(shù)百塊GPU能實現(xiàn)高效協(xié)同。
此外,要打造高效的超節(jié)點方案,交換也是極為關鍵的一環(huán)。
沈亦晨博士介紹,在模型訓練過程中,不同階段GPU間的通信拓撲存在動態(tài)變化。英偉達采用NVSwitch電交換芯片集中調(diào)度NVLink信號,類似交通信號燈統(tǒng)一分配各GPU間的通信路徑。
然而,國內(nèi)GPU廠商普遍缺乏同類高性能電交換芯片,現(xiàn)有解決方案在性能上仍與英偉達存在顯著差距。此外,國內(nèi)GPU廠商的互連接口協(xié)議也各不相同,傳統(tǒng)交換機無法做到統(tǒng)一調(diào)度。
面臨種種挑戰(zhàn),國產(chǎn)超節(jié)點方案究竟應該如何破局?作為國內(nèi)乃至全球領先的光電混合算力提供商,曦智科技依托其在光子計算和光子網(wǎng)絡的技術積累,交出國內(nèi)首個光互連光交換GPU超節(jié)點解決方案光躍LightSphereX。
二、首創(chuàng)分布式光交換芯片,相關成果獲頂會認證
光躍LightSphereX的核心技術,是曦智科技全球首創(chuàng)的基于硅光子技術的分布式光交換dOCS(distributedOpticalCircuitSwitch)芯片。
若把傳統(tǒng)集中式的交換芯片比為中央物流中心,將每張計算卡比為一個車間,分布式光交換技術所進行的調(diào)整,就是取消了中央物流中心,轉而在每個車間旁邊設置小型物料中轉站,使物料傳輸路徑更短、更直接。
得益于這一架構,光躍LightSphereX可靈活配置超節(jié)點的規(guī)模,并可靈活切換GPU間互連拓撲結構,以適應不同模型負載對通信模式的差異化需求。
在大規(guī)模訓練、推理場景中,上述解決方案在GPU冗余率上展現(xiàn)出明顯優(yōu)勢。傳統(tǒng)超節(jié)點必須整體運作,單卡故障會導致整個節(jié)點下線,冗余成本高;而分布式光交換讓超節(jié)點支持動態(tài)重組——當檢測到異常時,系統(tǒng)可自動移除故障節(jié)點,接入備份服務器重新組網(wǎng)。
這種“卡級冗余”相比傳統(tǒng)“節(jié)點級冗余”大幅降低備用資源需求,將冗余比例從整節(jié)點壓縮到單卡級別,冗余率僅為英偉達、谷歌等方案的1/10。
光躍LightSphereX解決方案在商用光電轉換模組的基礎上,增加了用于光交換功能的芯片,以較低的成本實現(xiàn)了分布式的光交換。分布式設計方案幾乎可以無限擴展,突破了傳統(tǒng)交換芯片對連接數(shù)量的限制。
在本屆WAIC期間發(fā)布的光躍LightSphereX獲得了SAIL獎(WAIC最高獎項),也成為該獎項創(chuàng)新維度的標桿案例。而dOCS相關方案則收錄于國際通信網(wǎng)絡旗艦會議SIGCOMM2025。
除了技術方面的突破之外,光躍LightSphereX還對國產(chǎn)算力生態(tài)起到了一定的推動作用。
當下,國產(chǎn)GPU類型、架構龐雜,協(xié)議各有區(qū)別,難以形成協(xié)同效應。而光交換本身不依賴于特定的數(shù)據(jù)傳輸協(xié)議,這意味著它能無縫兼容不同廠商使用的互連協(xié)議。這有效緩解了開放生態(tài)中缺乏高效Scale-Up交換芯片的現(xiàn)狀,推動了基于光交換的Scale-Up技術路徑。
此外,dOCS芯片基于硅光技術,其設計與制造不依賴于先進半導體工藝節(jié)點,這對提升算力基礎設施供應鏈的安全性與韌性也有較大意義。
三、硅光技術迎來歷史機遇期,5年內(nèi)硅光芯片占比或將達30%
光躍LightSphereX是曦智科技在AI算力需求大爆發(fā)的當下,對光電混合算力的最新探索,這離不開曦智成立8年多來在硅光技術上的長期投入。該公司擁有光子矩陣計算(oMAC)、片上光網(wǎng)絡(oNOC)和片間光網(wǎng)絡(oNET)三大領域的核心技術,并打造了光子計算和光子網(wǎng)絡兩大產(chǎn)品線。
沈亦晨認為,近兩年,硅光技術在國際上的熱度和重視度不斷攀升,可能已經(jīng)走到歷史上最好的階段。面臨這一歷史機遇期,曦智從兩年前便開始聚焦產(chǎn)品化、商業(yè)化,業(yè)務收入在過去3年內(nèi)快速增長,今年芯片出貨量已經(jīng)達到數(shù)萬顆。
放眼未來,曦智科技的高管們一致認為,隨著算力集群和算力需求越來越大,硅光是必然的解決方案。雖然國際上純電互連仍占主導,但華為這一主流廠商已將光互連引入超節(jié)點解決方案,英偉達的下一步也可能是如此。
此外,光互連和光交換技術當前仍屬于系統(tǒng)級方案,通過外接光模組實現(xiàn),通過不斷迭代,未來光互連和光交換器件有望與主芯片實現(xiàn)共封裝,從而進一步提高帶寬和能效。
沈亦晨預測,未來五年,硅光芯片在智算中心的占比有望提升至30%以上。隨著規(guī)模化量產(chǎn),硅光芯片成本將成倍下降,推動成本降低到應用普及的正向循環(huán)。
具體來看,他認為光互連有望率先在未來幾年出現(xiàn)指數(shù)級增長;光計算則從大模型推理、AIforScience等追求極致性能的場景切入,逐步擴展通用性。
曦智科技目前擁有一支近250人的團隊,核心成員由來自麻省理工學院的頂尖科學家和擁有豐富半導體行業(yè)經(jīng)驗的業(yè)界知名人士組成,在上海、杭州、南京、北京、新加坡等地均設有辦公室及實驗室。
自成立以來,曦智科技在產(chǎn)品進展、技術研發(fā)、融資規(guī)模等方面均位居全球光電混合賽道前列。孟懷宇博士透露,曦智在光學芯片、模擬芯片、先進封裝技術等方面都擁有前瞻性的技術儲備。
負責互連產(chǎn)品線的朱劍則稱,曦智有很多先進的技術儲備,但該公司會采取較為務實的態(tài)度,根據(jù)市場的發(fā)展階段提供適合的解決方案。
結語:實現(xiàn)從0到千卡突破,光電融合已成行業(yè)大勢
光電混合算力作為一項前沿技術,在落地的時候必然面臨客戶原有技術路徑的慣性問題。沈亦晨透露,直到如今,曦智仍需要花精力“教育市場”,逐步說服廠商采用這一技術。
令人慶幸的是,曦智已在光躍LightSphereX方案上實現(xiàn)了從0到千卡突破,將對光互連超節(jié)點方案的魯棒性和成本效益驗證起到極大的推動作用。
在智東西與曦智的溝通中,我們清楚地感受到其發(fā)展路徑:以光電混合算力技術為支點,逐步撬動算力基礎設施的升級,同時保持對“光替代電”的長期信仰。
評分9.8,《農(nóng)門小王妃》用奪榜首,實力圈粉
第一本《農(nóng)門小王妃》作者:西蘭花花簡介:評分9.8,《農(nóng)門小王妃》用奪榜首,實力圈粉阮明姿一睜眼,發(fā)現(xiàn)自己穿越成了農(nóng)家貧女——。爹娘早逝,爺奶不慈,家徒四壁,還附帶個啞巴妹妹|。從一無所有開始發(fā)家致富,從荊棘遍地走向花團錦簇|_。一時賺錢一時爽,一直賺錢一直爽!然而撿回來的那個男人,卻不依不饒:王妃,跟孤回府。 ”阮明姿溫柔的給阮明妍布置了一項力所能及的任務,果然,阮明妍那雙烏溜溜的大眼睛亮了起來,閃爍著猶如黑曜石般的光彩,顯然很是高興--。阮明姿把種子跟大蔥暫時擱置到一旁,拿鋤頭先把菜地一角的野草都給鋤了去,又把地里頭凝結成塊的大土坷垃用鋤頭砸碎。前幾日下了場暴雨,這菜地下頭的地倒還算松軟,阮明姿還有呢?《農(nóng)門小王妃》書評9.2分,驚喜不斷