從GPT系列、Gemini到DeepSeek、QWen的快速更新,模型訓(xùn)練迭代時(shí)間已縮短至不足3個(gè)月,在當(dāng)今生成式人工智能高速發(fā)展的浪潮中,AI模型的規(guī)模和復(fù)雜度不斷攀升,迭代速度也在縮短,如何高效、穩(wěn)定地生產(chǎn)先進(jìn)AI模型,成為了科技競爭的核心焦點(diǎn)。
大模型訓(xùn)練對(duì)算力、效率和系統(tǒng)穩(wěn)定性的高要求,催生了全新的基礎(chǔ)設(shè)施理念——“AI工廠”。
摩爾線程創(chuàng)始人兼CEO張建中在世界人工智能大會(huì)(WAIC2025)開幕前夕的技術(shù)分享會(huì)中表示,為應(yīng)對(duì)生成式AI爆發(fā)式增長下的大模型訓(xùn)練效率瓶頸,摩爾線程將通過系統(tǒng)級(jí)工程創(chuàng)新,構(gòu)建新一代AI訓(xùn)練基礎(chǔ)設(shè)施,致力于為AGI時(shí)代打造生產(chǎn)先進(jìn)模型的“超級(jí)工廠”。
生產(chǎn)先進(jìn)模型的超級(jí)工廠,不僅代表了AI算力架構(gòu)的創(chuàng)新,更象征著從芯片設(shè)計(jì)到大規(guī)模集群協(xié)同的系統(tǒng)級(jí)工程升級(jí)。
什么樣的基礎(chǔ)設(shè)施能夠稱之為AI工廠?
可以類比傳統(tǒng)的工廠。首先,它必須擁有強(qiáng)大且通用的計(jì)算引擎,能夠支撐從訓(xùn)練、推理到實(shí)際部署的全流程AI生產(chǎn)。其次,AI工廠不是冷冰冰的算力堆疊,更是一套系統(tǒng)性的工程創(chuàng)新集合,包括硬件架構(gòu)優(yōu)化、軟件系統(tǒng)協(xié)同、高效能集群建設(shè)和持續(xù)穩(wěn)定的運(yùn)行保障。
這些要素共同轉(zhuǎn)化為更高的AI生產(chǎn)效率和更低的應(yīng)用門檻,從而推動(dòng)通用人工智能的產(chǎn)業(yè)化進(jìn)程。
摩爾線程提出的“AI工廠”,如同芯片晶圓廠的制程升級(jí),是一個(gè)系統(tǒng)性、全方位的變革,需要實(shí)現(xiàn)從底層芯片架構(gòu)創(chuàng)新、到集群整體架構(gòu)的優(yōu)化,再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的全面升級(jí)。通過全方位的基礎(chǔ)設(shè)施變革,推動(dòng)AI訓(xùn)練從千卡級(jí)向萬卡級(jí)乃至十萬卡級(jí)規(guī)模演進(jìn),以系統(tǒng)級(jí)工程實(shí)現(xiàn)生產(chǎn)力和創(chuàng)新效率的飛躍。
張建中指出,“AI工廠”的智能“產(chǎn)能”,由五大核心要素共同決定,其效率公式可概括為:AI工廠生產(chǎn)效率=加速計(jì)算通用性×單芯片有效算力×單節(jié)點(diǎn)效率×集群效率×集群穩(wěn)定性。
提升AI生產(chǎn)效率的五大核心要素
加速計(jì)算通用性、單芯片有效算力、單節(jié)點(diǎn)效率、集群效率、集群穩(wěn)定性這五大核心要素,恰好是系統(tǒng)由小到大,從硬件到軟件再到系統(tǒng)的關(guān)鍵。
1.加速計(jì)算通用性
摩爾線程的構(gòu)建AI工廠是以自研的全功能GPU通用算力為基石,具備全功能GPU具備“功能完備”與“精度完整”特性,在國內(nèi)芯片公司中獨(dú)具優(yōu)勢(shì)。
摩爾線程基于自研MUSA架構(gòu)的全功能GPU,單芯片即可集成AI計(jì)算加速(訓(xùn)推一體)、圖形渲染(2D+3D)、物理仿真和科學(xué)計(jì)算、超高清視頻編解碼能力,充分適配AI訓(xùn)推、具身智能、AIGC等多樣化應(yīng)用場景。
而全功能GPU支持從FP64至INT8的完整精度譜系,原生支持FP8大模型訓(xùn)練及推理,并通過FP8混合精度技術(shù),在主流前沿大模型訓(xùn)練中實(shí)現(xiàn)20%~30%的性能躍升,為國產(chǎn)GPU的算力效率樹立行業(yè)標(biāo)桿。
這種通用性不僅極大提升了硬件資源利用率,降低了系統(tǒng)冗余和開發(fā)成本,更為未來世界模型和新興AI形態(tài)的動(dòng)態(tài)演進(jìn)提供了堅(jiān)實(shí)底座。
2.單芯片有效算力
高效芯片并非只談峰值算力,更考驗(yàn)實(shí)際應(yīng)用場景下的“有效算力”,摩爾線程通過三大突破——計(jì)算、內(nèi)存、通信,顯著提升單GPU運(yùn)算效率。
運(yùn)算效率依賴于架構(gòu),摩爾線程創(chuàng)新的全功能、多引擎、可配置、可伸縮GPU架構(gòu),通過硬件資源池化及動(dòng)態(tài)資源調(diào)度技術(shù),構(gòu)建了全局共享的計(jì)算、內(nèi)存與通信資源池,允許根據(jù)目標(biāo)市場快速裁剪出優(yōu)化的芯片配置,大幅降低了新品芯片的開發(fā)成本,在保障通用性的同時(shí)顯著提升了資源利用率。
在計(jì)算層面,AI加速系統(tǒng)(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計(jì)算。其中FP8技術(shù)通過快速格式轉(zhuǎn)換、動(dòng)態(tài)范圍智能適配、高精度累加器等創(chuàng)新設(shè)計(jì),在保證計(jì)算精度的同時(shí),將Transformer計(jì)算性能提升約30%。
內(nèi)存優(yōu)化方面,通過多精度近存規(guī)約引擎、低延遲Scale-Up、通算并行資源隔離等技術(shù),內(nèi)存系統(tǒng)實(shí)現(xiàn)了50%的帶寬節(jié)省和60%的延遲降低,有效提升數(shù)據(jù)傳輸能力。
通信效率的優(yōu)化,是通過獨(dú)創(chuàng)的ACE異步通信引擎減少了15%的計(jì)算資源損耗。另外,MTLink2.0互連技術(shù)提供了高出國內(nèi)行業(yè)平均水平60%的帶寬,為大規(guī)模集群部署奠定了堅(jiān)實(shí)基礎(chǔ)。
3.單節(jié)點(diǎn)效率
單芯片的有效算力高還不夠,節(jié)點(diǎn)層面的執(zhí)行效率,更是AI工廠整體效能的基礎(chǔ)。
摩爾線程是通過MUSA全棧系統(tǒng)軟件實(shí)現(xiàn)關(guān)鍵技術(shù)突破,其中的核心包括了五個(gè)方面:
首先是任務(wù)調(diào)度優(yōu)化,核函數(shù)啟動(dòng)(KernelLaunch)時(shí)間縮短50%。其次是極致性能算子庫,GEMM算子算力利用率達(dá)98%,F(xiàn)lashAttention算子算力利用率突破95%。然后是通信效能提升,MCCL通信庫實(shí)現(xiàn)RDMA網(wǎng)絡(luò)97%帶寬利用率;基于異步通信引擎優(yōu)化計(jì)算通信并行,集群性能提升10%。還有低精度計(jì)算效率革新,F(xiàn)P8優(yōu)化與行業(yè)首創(chuàng)細(xì)粒度重計(jì)算技術(shù),顯著降低訓(xùn)練開銷。以及開發(fā)生態(tài)完善,基于Triton-MUSA編譯器+MUSAGraph實(shí)現(xiàn)DeepSeek-R1推理加速1.5倍,全面兼容Triton等主流框架。
強(qiáng)大的單節(jié)點(diǎn)處理能力,不僅能夠縮短大模型單機(jī)訓(xùn)練時(shí)間,更能在AI推理和實(shí)際業(yè)務(wù)部署中實(shí)現(xiàn)更低延時(shí)和更高吞吐,顯著提升每臺(tái)設(shè)備的投資回報(bào)率。這也為邊緣計(jì)算、私有部署等行業(yè)AI場景提供了強(qiáng)力支持。
4.集群效率
AI工廠是成千上萬甚至十萬塊GPU高效協(xié)同的大規(guī)模集群。摩爾線程自研KUAE計(jì)算集群通過5D大規(guī)模分布式并行計(jì)算技術(shù),實(shí)現(xiàn)上千節(jié)點(diǎn)的高效協(xié)作,推動(dòng)AI基礎(chǔ)設(shè)施從單點(diǎn)優(yōu)化邁向系統(tǒng)工程級(jí)突破。
其中,創(chuàng)新5D并行訓(xùn)練通過整合數(shù)據(jù)、模型、張量、流水線和專家并行技術(shù),全面支持Transformer等主流架構(gòu),顯著提升大規(guī)模集群訓(xùn)練效率。
性能仿真與優(yōu)化,通過自研Simumax工具面向超大規(guī)模集群自動(dòng)搜索最優(yōu)并行策略,精準(zhǔn)模擬FP8混合精度訓(xùn)練與算子融合,為DeepSeek等模型縮短訓(xùn)練周期提供科學(xué)依據(jù)。
還有秒級(jí)備份恢復(fù),針對(duì)大模型穩(wěn)定性難題,創(chuàng)新CheckPoint加速方案利用RDMA技術(shù),將百GB級(jí)備份恢復(fù)時(shí)間從數(shù)分鐘壓縮至1秒,提升GPU有效算力利用率。
根據(jù)摩爾線程給出的數(shù)據(jù),基于平湖架構(gòu)KUAE2智算集群,無論千卡集群或更大規(guī)模,在每個(gè)應(yīng)用場景都能做到比國外主流產(chǎn)品更高的性能和效率,達(dá)到行業(yè)領(lǐng)先水平。
5.集群穩(wěn)定性
即便集群的效率再高,對(duì)于任何大規(guī)模訓(xùn)練任務(wù),可持續(xù)產(chǎn)出的穩(wěn)定性才是真正的護(hù)城河。
為此,摩爾線程創(chuàng)新推出零中斷容錯(cuò)技術(shù),故障發(fā)生時(shí)僅隔離受影響節(jié)點(diǎn)組,其余節(jié)點(diǎn)繼續(xù)訓(xùn)練,備機(jī)無縫接入,全程無中斷。這一方案使KUAE集群有效訓(xùn)練時(shí)間占比超99%,大幅降低恢復(fù)開銷。
同時(shí),KUAE集群通過多維度訓(xùn)練洞察體系實(shí)現(xiàn)動(dòng)態(tài)監(jiān)測(cè)與智能診斷,異常處理效率提升50%,讓用戶看得見和管理得到每一個(gè)訓(xùn)練集群的每一片GPU。再結(jié)合集群巡檢與起飛檢查,訓(xùn)練成功率提高10%,為大規(guī)模AI訓(xùn)練提供穩(wěn)定保障。
張建中說,“摩爾線程的AI工廠從五個(gè)點(diǎn)分別去做很多的工作提升能力,我們高效率的工廠等于全功能的GPUXMUSA統(tǒng)一系統(tǒng)架構(gòu)X全棧軟件棧X高效的KUAE集群X零中斷。只有這樣的組合,才能確保每一個(gè)環(huán)節(jié)都做到最好,100%X100%X100%才能確保100%的成功率?!?/p>
AI工廠將加速哪些行業(yè)的發(fā)展?
完善的“AI工廠”不僅需要高效訓(xùn)練大模型,還需具備推理驗(yàn)證能力。
摩爾線程基于自研MUSA技術(shù)棧,構(gòu)建覆蓋LLM、視覺、生成類模型的全流程推理解決方案,實(shí)現(xiàn)“訓(xùn)練-驗(yàn)證-部署”的無縫銜接。其MTTransformer自研推理引擎、TensorX自研推理引擎和vLLM-MUSA推理框架,為模型驗(yàn)證和部署提供極致性能支持。
摩爾線程的數(shù)據(jù)顯示,其旗艦產(chǎn)品MTTS5000滿血跑DeepSeekR1模型推理,速度達(dá)到100tokens/s,達(dá)到行業(yè)領(lǐng)先水平。
這就意味著,AI工廠驅(qū)動(dòng)的不僅是AI產(chǎn)業(yè)自身的技術(shù)躍升,更是各行各業(yè)智能化升級(jí)的關(guān)鍵引擎,摩爾線程以“KUAE+MUSA”為智算業(yè)務(wù)核心,將加速眾多行業(yè)的發(fā)展。
比如AIGC與內(nèi)容創(chuàng)作:通過超大規(guī)模模型訓(xùn)練,實(shí)現(xiàn)更高質(zhì)量的文本生成、圖像、音頻和視頻內(nèi)容創(chuàng)作,催生數(shù)字媒體、廣告動(dòng)漫等新業(yè)態(tài)爆發(fā)。
科學(xué)計(jì)算與工程仿真:AI工廠全功能GPU在物理仿真、藥物研發(fā)、材料設(shè)計(jì)中高效支持科學(xué)建模與大數(shù)據(jù)分析,推動(dòng)科研創(chuàng)新周期大幅縮短。
工業(yè)智能體與智能制造:AI工廠支持工業(yè)領(lǐng)域的大模型訓(xùn)練和實(shí)時(shí)推理,提升自動(dòng)化工廠、機(jī)器人、工業(yè)檢測(cè)等核心環(huán)節(jié)的智能化水平,實(shí)現(xiàn)生產(chǎn)降本增效、精益管理。
醫(yī)療影像分析:高效算力賦能醫(yī)學(xué)圖像分析、病理識(shí)別和疾病診斷,助力醫(yī)療智能化升級(jí)與普惠健康。
智慧交通與智能駕駛:通過海量傳感器數(shù)據(jù)的實(shí)時(shí)處理與模型訓(xùn)練,為自動(dòng)駕駛、高速公路管理、城市交通優(yōu)化提供堅(jiān)實(shí)算力基礎(chǔ)。
具身智能與智能體:全能GPU支持具身智能AI體在虛擬與物理環(huán)境間、高效進(jìn)行感知、思考與運(yùn)動(dòng)控制,推動(dòng)智能機(jī)器人、虛擬人等前沿發(fā)展。
摩爾線程在2025世界人工智能大會(huì)(WAIC)的站臺(tái)上也展示了在上述場景中的應(yīng)用。
可以看到,摩爾線程“AI工廠”力圖打破算力桎梏,為千行百業(yè)的數(shù)智化轉(zhuǎn)型提供底座。從圖形渲染到AI算力引擎,從全功能GPU到系統(tǒng)級(jí)優(yōu)化,其五大核心技術(shù)要素構(gòu)筑的不只是一個(gè)“生產(chǎn)先進(jìn)模型的超級(jí)工廠”,更是AGI新時(shí)代產(chǎn)業(yè)智能升級(jí)的動(dòng)力源泉。雷峰網(wǎng)
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。