堅祺瑞
從GPT系列、Gemini到DeepSeek、QWen的快速更新,模型訓練迭代時間已縮短至不足3個月,在當今生成式人工智能高速發(fā)展的浪潮中,AI模型的規(guī)模和復雜度不斷攀升,迭代速度也在縮短,如何高效、穩(wěn)定地生產先進AI模型,成為了科技競爭的核心焦點。
大模型訓練對算力、效率和系統(tǒng)穩(wěn)定性的高要求,催生了全新的基礎設施理念——“AI工廠”。
摩爾線程創(chuàng)始人兼CEO張建中在世界人工智能大會(WAIC2025)開幕前夕的技術分享會中表示,為應對生成式AI爆發(fā)式增長下的大模型訓練效率瓶頸,摩爾線程將通過系統(tǒng)級工程創(chuàng)新,構建新一代AI訓練基礎設施,致力于為AGI時代打造生產先進模型的“超級工廠”。
生產先進模型的超級工廠,不僅代表了AI算力架構的創(chuàng)新,更象征著從芯片設計到大規(guī)模集群協(xié)同的系統(tǒng)級工程升級。
什么樣的基礎設施能夠稱之為AI工廠?
可以類比傳統(tǒng)的工廠。首先,它必須擁有強大且通用的計算引擎,能夠支撐從訓練、推理到實際部署的全流程AI生產。其次,AI工廠不是冷冰冰的算力堆疊,更是一套系統(tǒng)性的工程創(chuàng)新集合,包括硬件架構優(yōu)化、軟件系統(tǒng)協(xié)同、高效能集群建設和持續(xù)穩(wěn)定的運行保障。
這些要素共同轉化為更高的AI生產效率和更低的應用門檻,從而推動通用人工智能的產業(yè)化進程。
摩爾線程提出的“AI工廠”,如同芯片晶圓廠的制程升級,是一個系統(tǒng)性、全方位的變革,需要實現(xiàn)從底層芯片架構創(chuàng)新、到集群整體架構的優(yōu)化,再到軟件算法調優(yōu)和資源調度系統(tǒng)的全面升級。通過全方位的基礎設施變革,推動AI訓練從千卡級向萬卡級乃至十萬卡級規(guī)模演進,以系統(tǒng)級工程實現(xiàn)生產力和創(chuàng)新效率的飛躍。
張建中指出,“AI工廠”的智能“產能”,由五大核心要素共同決定,其效率公式可概括為:AI工廠生產效率=加速計算通用性×單芯片有效算力×單節(jié)點效率×集群效率×集群穩(wěn)定性。
提升AI生產效率的五大核心要素
加速計算通用性、單芯片有效算力、單節(jié)點效率、集群效率、集群穩(wěn)定性這五大核心要素,恰好是系統(tǒng)由小到大,從硬件到軟件再到系統(tǒng)的關鍵。
1.加速計算通用性
摩爾線程的構建AI工廠是以自研的全功能GPU通用算力為基石,具備全功能GPU具備“功能完備”與“精度完整”特性,在國內芯片公司中獨具優(yōu)勢。
摩爾線程基于自研MUSA架構的全功能GPU,單芯片即可集成AI計算加速(訓推一體)、圖形渲染(2D+3D)、物理仿真和科學計算、超高清視頻編解碼能力,充分適配AI訓推、具身智能、AIGC等多樣化應用場景。
而全功能GPU支持從FP64至INT8的完整精度譜系,原生支持FP8大模型訓練及推理,并通過FP8混合精度技術,在主流前沿大模型訓練中實現(xiàn)20%~30%的性能躍升,為國產GPU的算力效率樹立行業(yè)標桿。
這種通用性不僅極大提升了硬件資源利用率,降低了系統(tǒng)冗余和開發(fā)成本,更為未來世界模型和新興AI形態(tài)的動態(tài)演進提供了堅實底座。
2.單芯片有效算力
高效芯片并非只談峰值算力,更考驗實際應用場景下的“有效算力”,摩爾線程通過三大突破——計算、內存、通信,顯著提升單GPU運算效率。
運算效率依賴于架構,摩爾線程創(chuàng)新的全功能、多引擎、可配置、可伸縮GPU架構,通過硬件資源池化及動態(tài)資源調度技術,構建了全局共享的計算、內存與通信資源池,允許根據(jù)目標市場快速裁剪出優(yōu)化的芯片配置,大幅降低了新品芯片的開發(fā)成本,在保障通用性的同時顯著提升了資源利用率。
在計算層面,AI加速系統(tǒng)(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。其中FP8技術通過快速格式轉換、動態(tài)范圍智能適配、高精度累加器等創(chuàng)新設計,在保證計算精度的同時,將Transformer計算性能提升約30%。
內存優(yōu)化方面,通過多精度近存規(guī)約引擎、低延遲Scale-Up、通算并行資源隔離等技術,內存系統(tǒng)實現(xiàn)了50%的帶寬節(jié)省和60%的延遲降低,有效提升數(shù)據(jù)傳輸能力。
通信效率的優(yōu)化,是通過獨創(chuàng)的ACE異步通信引擎減少了15%的計算資源損耗。另外,MTLink2.0互連技術提供了高出國內行業(yè)平均水平60%的帶寬,為大規(guī)模集群部署奠定了堅實基礎。
3.單節(jié)點效率
單芯片的有效算力高還不夠,節(jié)點層面的執(zhí)行效率,更是AI工廠整體效能的基礎。
摩爾線程是通過MUSA全棧系統(tǒng)軟件實現(xiàn)關鍵技術突破,其中的核心包括了五個方面:
首先是任務調度優(yōu)化,核函數(shù)啟動(KernelLaunch)時間縮短50%。其次是極致性能算子庫,GEMM算子算力利用率達98%,F(xiàn)lashAttention算子算力利用率突破95%。然后是通信效能提升,MCCL通信庫實現(xiàn)RDMA網(wǎng)絡97%帶寬利用率;基于異步通信引擎優(yōu)化計算通信并行,集群性能提升10%。還有低精度計算效率革新,F(xiàn)P8優(yōu)化與行業(yè)首創(chuàng)細粒度重計算技術,顯著降低訓練開銷。以及開發(fā)生態(tài)完善,基于Triton-MUSA編譯器+MUSAGraph實現(xiàn)DeepSeek-R1推理加速1.5倍,全面兼容Triton等主流框架。
強大的單節(jié)點處理能力,不僅能夠縮短大模型單機訓練時間,更能在AI推理和實際業(yè)務部署中實現(xiàn)更低延時和更高吞吐,顯著提升每臺設備的投資回報率。這也為邊緣計算、私有部署等行業(yè)AI場景提供了強力支持。
4.集群效率
AI工廠是成千上萬甚至十萬塊GPU高效協(xié)同的大規(guī)模集群。摩爾線程自研KUAE計算集群通過5D大規(guī)模分布式并行計算技術,實現(xiàn)上千節(jié)點的高效協(xié)作,推動AI基礎設施從單點優(yōu)化邁向系統(tǒng)工程級突破。
其中,創(chuàng)新5D并行訓練通過整合數(shù)據(jù)、模型、張量、流水線和專家并行技術,全面支持Transformer等主流架構,顯著提升大規(guī)模集群訓練效率。
性能仿真與優(yōu)化,通過自研Simumax工具面向超大規(guī)模集群自動搜索最優(yōu)并行策略,精準模擬FP8混合精度訓練與算子融合,為DeepSeek等模型縮短訓練周期提供科學依據(jù)。
還有秒級備份恢復,針對大模型穩(wěn)定性難題,創(chuàng)新CheckPoint加速方案利用RDMA技術,將百GB級備份恢復時間從數(shù)分鐘壓縮至1秒,提升GPU有效算力利用率。
根據(jù)摩爾線程給出的數(shù)據(jù),基于平湖架構KUAE2智算集群,無論千卡集群或更大規(guī)模,在每個應用場景都能做到比國外主流產品更高的性能和效率,達到行業(yè)領先水平。
5.集群穩(wěn)定性
即便集群的效率再高,對于任何大規(guī)模訓練任務,可持續(xù)產出的穩(wěn)定性才是真正的護城河。
為此,摩爾線程創(chuàng)新推出零中斷容錯技術,故障發(fā)生時僅隔離受影響節(jié)點組,其余節(jié)點繼續(xù)訓練,備機無縫接入,全程無中斷。這一方案使KUAE集群有效訓練時間占比超99%,大幅降低恢復開銷。
同時,KUAE集群通過多維度訓練洞察體系實現(xiàn)動態(tài)監(jiān)測與智能診斷,異常處理效率提升50%,讓用戶看得見和管理得到每一個訓練集群的每一片GPU。再結合集群巡檢與起飛檢查,訓練成功率提高10%,為大規(guī)模AI訓練提供穩(wěn)定保障。
張建中說,“摩爾線程的AI工廠從五個點分別去做很多的工作提升能力,我們高效率的工廠等于全功能的GPUXMUSA統(tǒng)一系統(tǒng)架構X全棧軟件棧X高效的KUAE集群X零中斷。只有這樣的組合,才能確保每一個環(huán)節(jié)都做到最好,100%X100%X100%才能確保100%的成功率?!?/p>
AI工廠將加速哪些行業(yè)的發(fā)展?
完善的“AI工廠”不僅需要高效訓練大模型,還需具備推理驗證能力。
摩爾線程基于自研MUSA技術棧,構建覆蓋LLM、視覺、生成類模型的全流程推理解決方案,實現(xiàn)“訓練-驗證-部署”的無縫銜接。其MTTransformer自研推理引擎、TensorX自研推理引擎和vLLM-MUSA推理框架,為模型驗證和部署提供極致性能支持。
摩爾線程的數(shù)據(jù)顯示,其旗艦產品MTTS5000滿血跑DeepSeekR1模型推理,速度達到100tokens/s,達到行業(yè)領先水平。
這就意味著,AI工廠驅動的不僅是AI產業(yè)自身的技術躍升,更是各行各業(yè)智能化升級的關鍵引擎,摩爾線程以“KUAE+MUSA”為智算業(yè)務核心,將加速眾多行業(yè)的發(fā)展。
比如AIGC與內容創(chuàng)作:通過超大規(guī)模模型訓練,實現(xiàn)更高質量的文本生成、圖像、音頻和視頻內容創(chuàng)作,催生數(shù)字媒體、廣告動漫等新業(yè)態(tài)爆發(fā)。
科學計算與工程仿真:AI工廠全功能GPU在物理仿真、藥物研發(fā)、材料設計中高效支持科學建模與大數(shù)據(jù)分析,推動科研創(chuàng)新周期大幅縮短。
工業(yè)智能體與智能制造:AI工廠支持工業(yè)領域的大模型訓練和實時推理,提升自動化工廠、機器人、工業(yè)檢測等核心環(huán)節(jié)的智能化水平,實現(xiàn)生產降本增效、精益管理。
醫(yī)療影像分析:高效算力賦能醫(yī)學圖像分析、病理識別和疾病診斷,助力醫(yī)療智能化升級與普惠健康。
智慧交通與智能駕駛:通過海量傳感器數(shù)據(jù)的實時處理與模型訓練,為自動駕駛、高速公路管理、城市交通優(yōu)化提供堅實算力基礎。
具身智能與智能體:全能GPU支持具身智能AI體在虛擬與物理環(huán)境間、高效進行感知、思考與運動控制,推動智能機器人、虛擬人等前沿發(fā)展。
摩爾線程在2025世界人工智能大會(WAIC)的站臺上也展示了在上述場景中的應用。
可以看到,摩爾線程“AI工廠”力圖打破算力桎梏,為千行百業(yè)的數(shù)智化轉型提供底座。從圖形渲染到AI算力引擎,從全功能GPU到系統(tǒng)級優(yōu)化,其五大核心技術要素構筑的不只是一個“生產先進模型的超級工廠”,更是AGI新時代產業(yè)智能升級的動力源泉。雷峰網(wǎng)
收藏丨資深迷,花3分鐘看看《三國演義》和正史全面對比,共133處
來源:紅網(wǎng)
作者:貿初雪
編輯:虎淑慧
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉載請附原文出處鏈接和本聲明。