金磊發(fā)自WAIC量子位|公眾號(hào)QbitAI
放眼當(dāng)下,到底哪個(gè)芯片跑滿(mǎn)血DeepSeek是最快的?
答案很意外——不是你以為的英偉達(dá),而是一家國(guó)產(chǎn)GPU。
因?yàn)楝F(xiàn)在它的速度,已經(jīng)直接來(lái)到了100tokens/s!
這個(gè)速度相比國(guó)外GPU的50tokens/s和國(guó)內(nèi)的15tokens/s,已經(jīng)稱(chēng)得上是快上了一個(gè)數(shù)量級(jí)。
若是將三者放在一起同時(shí)運(yùn)行,效果會(huì)更加一目了然。
當(dāng)中間的國(guó)產(chǎn)GPU以行云流水之勢(shì)給出了完整準(zhǔn)確答案之際,兩邊的“選手”則是還在深度思考過(guò)程中:
那么這個(gè)國(guó)產(chǎn)GPU到底是誰(shuí)?
不賣(mài)關(guān)子,它就是摩爾線(xiàn)程。
但這時(shí)肯定有很多小伙伴會(huì)問(wèn)了,從成立到現(xiàn)在不到5年時(shí)間,摩爾線(xiàn)程的何以取得如此速度。
在量子位了解完其在“算力之道”的全貌之后發(fā)現(xiàn),答案,遠(yuǎn)比“做出一顆更快的芯片”要宏大和深刻。
已經(jīng)造了個(gè)AI超級(jí)工廠(chǎng)
沒(méi)錯(cuò),這是因?yàn)槟柧€(xiàn)程在搞算力這件事兒上,已經(jīng)給自家打造了一個(gè)AI超級(jí)工廠(chǎng)(AIFoundry)。
提到Foundry這個(gè)單詞,很多人第一反應(yīng)或許就是造芯片時(shí)的“晶圓廠(chǎng)”,它的價(jià)值取決于于生產(chǎn)芯片的良率、產(chǎn)能和工藝先進(jìn)性。
但AI超級(jí)工廠(chǎng),它并非指代一個(gè)物理上生產(chǎn)芯片的晶圓廠(chǎng),而是一個(gè)類(lèi)比的概念:
這個(gè)AI工廠(chǎng)的進(jìn)化,就像升級(jí)制程一樣,絕不是改改某個(gè)單一技術(shù)就完事兒了,而是一個(gè)系統(tǒng)性、全方位的變革。
它要求整個(gè)技術(shù)棧“脫胎換骨”:從最底層的芯片架構(gòu)必須革新、到集群的整體架構(gòu)得巧妙設(shè)計(jì),再到軟件層面——算法怎么調(diào)更聰明,資源調(diào)度怎么跑更高效,每一個(gè)環(huán)節(jié)都至關(guān)重要。
正是這種從根兒上動(dòng)起來(lái)的基礎(chǔ)設(shè)施大改造,才能真正釋放AI算力,實(shí)現(xiàn)大規(guī)?!吧a(chǎn)”和“迭代”前沿AI大模型。
需要強(qiáng)調(diào)的一點(diǎn)是,要建成這樣一座超級(jí)工廠(chǎng),絕非暴力地將成千上萬(wàn)張顯卡堆砌在一起這么簡(jiǎn)單。
它需要五大核心要素的緊密耦合與協(xié)同進(jìn)化,缺一不可;
這個(gè)AI工廠(chǎng)的產(chǎn)能,用一套公式可概括為:
AI工廠(chǎng)生產(chǎn)效率=加速計(jì)算通用性×單芯片有效算力×單節(jié)點(diǎn)效率×集群效率×集群穩(wěn)定性
摩爾線(xiàn)程正是圍繞這五大要素,構(gòu)建了技術(shù)護(hù)城河。
全功能GPU:超級(jí)工廠(chǎng)的基石
AI超級(jí)工廠(chǎng)的基石,指的是一顆具備強(qiáng)大通用性的“全功能GPU”。因?yàn)榛仡櫵懔Φ倪M(jìn)化史,其實(shí)就是一部全功能GPU的發(fā)展史。
從最初只能加速3D圖形的“顯卡”(VGACard),到開(kāi)放編程接口、允許開(kāi)發(fā)者創(chuàng)造無(wú)限可能的“現(xiàn)代圖形處理器”,再到被廣泛應(yīng)用于超算、深度學(xué)習(xí)、區(qū)塊鏈等領(lǐng)域的通用計(jì)算平臺(tái),GPU的每一次飛躍,都源于其通用性的拓展。
單一功能的加速器,如早期的3D加速卡或今天的某些專(zhuān)用AI芯片(ASIC),雖然在特定任務(wù)上效率極高,但其靈活性差、編程困難,無(wú)法適應(yīng)AI模型日新月異、應(yīng)用場(chǎng)景層出不窮的發(fā)展趨勢(shì)。
一個(gè)AI模型可能既需要處理語(yǔ)言,也需要理解圖像,甚至要進(jìn)行物理世界的模擬。如果工廠(chǎng)的“機(jī)床”只能處理一種任務(wù),那么它很快就會(huì)被淘汰。
因此,摩爾線(xiàn)程從創(chuàng)立之初就堅(jiān)持打造真正的全功能GPU,既要“功能完備”,也要“精度完整”。
首先是“功能完備”,即芯片內(nèi)部集成了四大核心引擎:
AI計(jì)算加速引擎:不僅能做推理,更能做訓(xùn)練,實(shí)現(xiàn)訓(xùn)推一體。先進(jìn)的3D圖形渲染引擎:支持DX12等現(xiàn)代圖形API,滿(mǎn)足游戲、AIGC、數(shù)字孿生等視覺(jué)計(jì)算需求。物理仿真與科學(xué)計(jì)算引擎:這是常被忽視卻至關(guān)重要的一環(huán)。未來(lái)的AgenticAI、空間智能都需要與物理世界交互,強(qiáng)大的科學(xué)計(jì)算能力是連接數(shù)字世界與物理世界的橋梁。超高清視頻編解碼引擎:AI的計(jì)算結(jié)果最終需要通過(guò)視覺(jué)和聽(tīng)覺(jué)呈現(xiàn)給人類(lèi),高清、低延遲的流媒體處理能力是人機(jī)交互體驗(yàn)的保證。
其次,“全計(jì)算精度”覆蓋。從FP32、FP16到業(yè)界前沿的FP8,乃至更低精度的INT8/INT4,完整的精度支持讓開(kāi)發(fā)者可以根據(jù)不同任務(wù)的需求,在性能和精度之間找到最佳平衡點(diǎn)。
特別是在大模型訓(xùn)練中,混合精度訓(xùn)練已是標(biāo)配,而摩爾線(xiàn)程是國(guó)內(nèi)極少數(shù)能夠提供FP8訓(xùn)練能力的平臺(tái)。“全功能”和“全精度”能力,確保了摩爾線(xiàn)程的GPU這座“機(jī)床”能夠承接各類(lèi)AI模型生產(chǎn)訂單。
MUSA統(tǒng)一系統(tǒng)架構(gòu):超級(jí)工廠(chǎng)的“總設(shè)計(jì)師”
如果說(shuō)全功能GPU是工廠(chǎng)的機(jī)床,那么MUSA就是整個(gè)工廠(chǎng)的“總設(shè)計(jì)師”。一個(gè)卓越的頂層架構(gòu),能夠決定一家公司未來(lái)十年甚至更長(zhǎng)時(shí)間的技術(shù)路線(xiàn)和發(fā)展?jié)摿Α?/p>
MUSA的核心理念是“一個(gè)架構(gòu),萬(wàn)千應(yīng)用”(OneArchitectureforManyApplications)。它采用創(chuàng)新的多引擎、可伸縮、可配置的統(tǒng)一系統(tǒng)架構(gòu),將GPU內(nèi)部的計(jì)算、通信、內(nèi)存、調(diào)度等功能進(jìn)行頂層設(shè)計(jì)和統(tǒng)一管理。
先來(lái)看可伸縮,顧名思義,MUSA架構(gòu)是可以根據(jù)不同客戶(hù)、不同市場(chǎng)的需求,快速裁剪出優(yōu)化的芯片配置,大幅降低了新品芯片的開(kāi)發(fā)成本。
其次,資源全局共享,簡(jiǎn)單說(shuō),就是把所有硬件資源——像計(jì)算核心、內(nèi)存、通信這些——都打通,變成一個(gè)大資源池,然后用智能調(diào)度靈活分配。
這招兒直接解決了大問(wèn)題:以前那種單引擎GPU,多個(gè)任務(wù)一起跑的時(shí)候特別容易卡。現(xiàn)在好了,所有資源大家共享,按需取用!
再例如,統(tǒng)一編程接口與指令集,開(kāi)發(fā)者只需學(xué)習(xí)一套API和編程模型,就能驅(qū)動(dòng)MUSA架構(gòu)下所有的硬件引擎,極大地降低了開(kāi)發(fā)門(mén)檻,提升了開(kāi)發(fā)效率。
除此之外,MUSA架構(gòu)內(nèi)部包含了多個(gè)摩爾線(xiàn)程自研的核心技術(shù)。
例如,專(zhuān)門(mén)為FP8設(shè)計(jì)的“Transformer引擎”,使其FP8的訓(xùn)練性能相比沒(méi)有該引擎的方案能提升30%;獨(dú)創(chuàng)的ACE異步通信引擎,可以讓計(jì)算和通信并行不悖,解決了傳統(tǒng)架構(gòu)中通信會(huì)占用計(jì)算資源的痛點(diǎn),減少了15%的計(jì)算資源損耗,將GPU的算力釋放;自研的MTLink2.0互聯(lián)協(xié)議,實(shí)現(xiàn)了GPU之間高效、低延遲的通信,提供了高出國(guó)內(nèi)行業(yè)平均水平60%的帶寬,為大規(guī)模集群部署奠定了堅(jiān)實(shí)基礎(chǔ)。
MUSA架構(gòu)的先進(jìn)性,確保了摩爾線(xiàn)程的每一顆芯片都不是孤立的算力單元,而是一個(gè)高度協(xié)同、管理高效的“作戰(zhàn)小組”,有效提升每顆芯片有效算力,為整個(gè)AI超級(jí)工廠(chǎng)提供了堅(jiān)實(shí)的、可擴(kuò)展的算力底座。
MUSA全棧系統(tǒng)軟件:超級(jí)工廠(chǎng)的“操作系統(tǒng)”與“工具箱”
再好的硬件,若是沒(méi)有高效的軟件,同樣也無(wú)法發(fā)揮其全部潛力。因此,摩爾線(xiàn)程打造了與MUSA硬件架構(gòu)深度耦合的全棧軟件系統(tǒng),它在AI超級(jí)工廠(chǎng)中扮演著“操作系統(tǒng)”和“開(kāi)發(fā)者工具箱”的角色。
這個(gè)軟件??梢哉f(shuō)是覆蓋了從底層驅(qū)動(dòng)到上層應(yīng)用框架的方方面面:
高效驅(qū)動(dòng):摩爾線(xiàn)程的驅(qū)動(dòng)經(jīng)過(guò)深度優(yōu)化,核函數(shù)啟動(dòng)時(shí)間縮短50%,任務(wù)派發(fā)延遲極低,可以一次性并發(fā)處理上千個(gè)任務(wù),領(lǐng)先業(yè)界水平。核心算子庫(kù):對(duì)標(biāo)國(guó)際大廠(chǎng)的cuDNN,摩爾線(xiàn)程的muDNN在算子層面進(jìn)行了大量?jī)?yōu)化,GEMM算子算力利用率達(dá)98%,F(xiàn)lashAttention算子算力利用率突破95%。
通信效能躍升:MCCL訓(xùn)練通信庫(kù)實(shí)現(xiàn)RDMA網(wǎng)絡(luò)97%帶寬利用率;基于異步通信引擎優(yōu)化計(jì)算通信并行,集群性能提升10%。生態(tài)兼容與Triton支持:通過(guò)MUSIFY等工具,實(shí)現(xiàn)了對(duì)PyTorch、TensorFlow等主流AI框架的無(wú)縫支持。尤其值得一提的是,基于Triton-MUSA編譯器+MUSAGraph實(shí)現(xiàn)DeepSeekR1推理加速1.5倍,全面兼容Triton等主流框架。完善的開(kāi)發(fā)者套件:提供了一整套涵蓋性能分析(Profiler)、調(diào)試、調(diào)優(yōu)、一鍵部署等功能的工具鏈,如同一個(gè)“百寶箱”,讓開(kāi)發(fā)者能夠洞察硬件運(yùn)行的每一個(gè)細(xì)節(jié),榨干硬件的每一分性能。
這套全棧系統(tǒng)軟件,確保了開(kāi)發(fā)者不僅能“用起來(lái)”,更能“用得好”,將MUSA硬件架構(gòu)的強(qiáng)大能力順暢地傳遞到上層應(yīng)用,是連接硬件與算法的關(guān)鍵樞紐。并且通過(guò)MUSA全棧系統(tǒng)軟件的優(yōu)化,摩爾線(xiàn)程實(shí)現(xiàn)了“單節(jié)點(diǎn)計(jì)算效率”全面提升。
KUAE計(jì)算集群:超級(jí)工廠(chǎng)的“生產(chǎn)車(chē)間”
單卡、單節(jié)點(diǎn)的性能再?gòu)?qiáng),也無(wú)法完成動(dòng)輒千億、萬(wàn)億參數(shù)大模型的訓(xùn)練。AI超級(jí)工廠(chǎng)必須以大規(guī)模集群的形式存在。為此,摩爾線(xiàn)程構(gòu)建了夸娥(KUAE)大規(guī)模智能計(jì)算集群。
夸娥計(jì)算集群遠(yuǎn)非簡(jiǎn)單的服務(wù)器堆疊,它是一個(gè)軟硬一體化的系統(tǒng)工程,相當(dāng)于AI大模型的“生產(chǎn)車(chē)間”:
軟硬一體化設(shè)計(jì):從服務(wù)器節(jié)點(diǎn)、交換機(jī)到機(jī)柜,再到上層的集群管理軟件、任務(wù)調(diào)度系統(tǒng),全部進(jìn)行了協(xié)同設(shè)計(jì)和優(yōu)化。創(chuàng)新5D并行訓(xùn)練:摩爾線(xiàn)程整合數(shù)據(jù)并行(DP)、流水線(xiàn)并行(PP)、張量并行(TP)等所有主流的并行訓(xùn)練策略,全面支持Transformer等主流架構(gòu),并能根據(jù)模型特點(diǎn)自動(dòng)搜索和推薦最優(yōu)的并行方案。端到端訓(xùn)練優(yōu)化:覆蓋了從數(shù)據(jù)預(yù)處理、模型預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)、微調(diào)到驗(yàn)證評(píng)估的全流程,提供一站式服務(wù)。性能仿真工具(Simumax):自主研發(fā)的Simumax工具面向超大規(guī)模集群自動(dòng)搜索最優(yōu)并行策略,精準(zhǔn)模擬FP8混合精度訓(xùn)練與算子融合,為DeepSeek等模型縮短訓(xùn)練周期提供科學(xué)依據(jù)。高效Checkpoint:針對(duì)大模型穩(wěn)定性難題,創(chuàng)新CheckPoint加速方案利用RDMA技術(shù),將百GB級(jí)備份恢復(fù)時(shí)間從數(shù)分鐘壓縮至1秒,提升GPU有效算力利用率。
通過(guò)夸娥計(jì)算集群,摩爾線(xiàn)程將單點(diǎn)的GPU性能優(yōu)勢(shì),成功擴(kuò)展到了千卡、萬(wàn)卡乃至更大規(guī)模的集群層面,構(gòu)建起了一個(gè)真正具備強(qiáng)大“生產(chǎn)力”的AI超級(jí)工廠(chǎng)。并且通過(guò)實(shí)測(cè),KUAE2大規(guī)模智算集群,在不同架構(gòu)模型的MFU,已經(jīng)達(dá)到了行業(yè)領(lǐng)先水平。
零中斷容錯(cuò)技術(shù):超級(jí)工廠(chǎng)的“安全生產(chǎn)協(xié)議”
對(duì)于一個(gè)需要7x24小時(shí)不間斷運(yùn)行的AI超級(jí)工廠(chǎng)來(lái)說(shuō),穩(wěn)定性壓倒一切。一次意外的宕機(jī),可能意味著數(shù)百萬(wàn)美元的損失和數(shù)周工作的付諸東流。因此,摩爾線(xiàn)程開(kāi)發(fā)了獨(dú)有的“零中斷容錯(cuò)技術(shù)”,這是保障工廠(chǎng)穩(wěn)定運(yùn)行的“安全生產(chǎn)協(xié)議”。
傳統(tǒng)的容錯(cuò)機(jī)制,在硬件(如GPU卡)發(fā)生故障時(shí),需要暫停整個(gè)訓(xùn)練任務(wù),人工替換硬件,再?gòu)淖罱腃heckpoint恢復(fù),整個(gè)過(guò)程耗時(shí)耗力。而摩爾線(xiàn)程的零中斷技術(shù)則完全不同:
零中斷容錯(cuò)技術(shù):當(dāng)某個(gè)節(jié)點(diǎn)變慢或出現(xiàn)故障時(shí),僅隔離受影響節(jié)點(diǎn)組,其余節(jié)點(diǎn)繼續(xù)訓(xùn)練,備機(jī)無(wú)縫接入,全程無(wú)中斷。這一方案使KUAE集群有效訓(xùn)練時(shí)間占比超99%,大幅降低恢復(fù)開(kāi)銷(xiāo)。多維度訓(xùn)練洞察:通過(guò)多維度的數(shù)據(jù)監(jiān)控和AI預(yù)測(cè)模型,系統(tǒng)能夠提前感知到哪些節(jié)點(diǎn)可能會(huì)成為“慢節(jié)點(diǎn)”,并進(jìn)行預(yù)警或隔離,實(shí)現(xiàn)動(dòng)態(tài)監(jiān)測(cè)與智能診斷,異常處理效率提升50%;集群自檢及調(diào)度優(yōu)化:在訓(xùn)練任務(wù)開(kāi)始前,系統(tǒng)會(huì)自動(dòng)對(duì)整個(gè)集群進(jìn)行“體檢”,確保所有軟硬件都處于最佳狀態(tài),如同飛機(jī)起飛前的安全檢查,訓(xùn)練成功率提高10%,為大規(guī)模AI訓(xùn)練提供穩(wěn)定保障。
總結(jié)來(lái)看,上述的五大要素,即全功能GPU、MUSA架構(gòu)、全棧軟件、KUAE集群、零中斷容錯(cuò)技術(shù),共同構(gòu)成了摩爾線(xiàn)程的AI超級(jí)工廠(chǎng)。
它是一個(gè)有機(jī)的整體,從芯片設(shè)計(jì)的最底層到集群管理的最上層,環(huán)環(huán)相扣,協(xié)同進(jìn)化。正是這個(gè)完整的、端到端的體系,才造就了文章開(kāi)頭的性能表現(xiàn)。
那么接下來(lái)的一個(gè)問(wèn)題是:
為什么要造AI超級(jí)工廠(chǎng)?
這個(gè)問(wèn)題的答案,或許植根于摩爾線(xiàn)程對(duì)計(jì)算革命過(guò)去、現(xiàn)在與未來(lái)的深刻洞察。
十年前,以人臉識(shí)別、自動(dòng)駕駛為代表的“感知AI”大爆發(fā),催生了第一批AI巨頭。而從2022年ChatGPT橫空出世至今,我們正處在“生成式AI”的指數(shù)級(jí)爆發(fā)期。
大模型的“智商”迭代速度令人咋舌,從去年還在人類(lèi)平均水平的四五十分,到如今頂尖模型已經(jīng)飆升至七八十分,直逼人類(lèi)頂尖水準(zhǔn)。
模型的迭代速度,也從過(guò)去的數(shù)月一更,壓縮到如今的數(shù)周甚至每周一更。這場(chǎng)競(jìng)賽的背后,驅(qū)動(dòng)力只有一個(gè)——算力。
正如馬斯克能夠憑借其20萬(wàn)張H100,讓Grok模型在短時(shí)間內(nèi)登頂排行榜,這殘酷地揭示了一個(gè)事實(shí):ScalingLaw是AI發(fā)展的鐵律。
誰(shuí)擁有更大、更強(qiáng)的算力基礎(chǔ)設(shè)施,誰(shuí)就能更快地迭代模型,搶占技術(shù)和市場(chǎng)的制高點(diǎn)。
而展望未來(lái)五年,AgenticAI(智能體AI)和空間智能將成為新的爆發(fā)點(diǎn)。AI將不再僅僅是聊天的工具,而是成為可以自主完成復(fù)雜任務(wù)的“數(shù)字員工”,并與物理世界深度融合。
這一切,都意味著對(duì)算力的需求將再次呈幾何級(jí)數(shù)增長(zhǎng)。在這樣的大背景下,僅僅滿(mǎn)足于當(dāng)下的計(jì)算能力是遠(yuǎn)遠(yuǎn)不夠的,必須為未來(lái)更加龐大的計(jì)算需求做好準(zhǔn)備。
面對(duì)永無(wú)止境的算力需求,僅僅追求“快”是片面的。未來(lái)的計(jì)算,更需要的是全方位的“穩(wěn)”——穩(wěn)定、可靠、高效、通用。
這正是建設(shè)AI超級(jí)工廠(chǎng)的根本原因。
訓(xùn)練一個(gè)萬(wàn)億參數(shù)的大模型,好比建造一座港珠澳大橋,是一項(xiàng)極其復(fù)雜的系統(tǒng)工程。它對(duì)基礎(chǔ)設(shè)施的要求,堪比建造一座芯片晶圓廠(chǎng)。
你不能指望靠“人海戰(zhàn)術(shù)”,找十億個(gè)兒童去抬起一棟大樓;同樣,你也不能簡(jiǎn)單地將一萬(wàn)張低效的顯卡堆在一起,就期望能訓(xùn)練出高質(zhì)量的大模型。
這個(gè)過(guò)程充滿(mǎn)了挑戰(zhàn),例如在成本方面,一次大規(guī)模訓(xùn)練動(dòng)輒耗費(fèi)數(shù)月和數(shù)百萬(wàn)美元,任何中斷或失敗都是巨大的損失。
再如面對(duì)復(fù)雜的系統(tǒng),上千個(gè)節(jié)點(diǎn)、上萬(wàn)顆芯片如何高效通信、同步?軟件和硬件如何完美適配?又該如何快速定位和解決問(wèn)題?
還有在實(shí)際應(yīng)用過(guò)程中,往往任務(wù)又是多樣性的:今天訓(xùn)練語(yǔ)言模型,明天可能就要處理多模態(tài)數(shù)據(jù),后天又要進(jìn)行科學(xué)計(jì)算……
這些挑戰(zhàn),都無(wú)法通過(guò)購(gòu)買(mǎi)單一的“最快芯片”來(lái)解決。它需要一個(gè)從底層硬件到上層軟件,再到集群管理和運(yùn)維服務(wù)的端到端解決方案。
這恰恰是摩爾線(xiàn)程“AI超級(jí)工廠(chǎng)”的核心價(jià)值所在——它提供的不是孤立的算力,而是一種確定性的、高效率的、高成功率的AI模型生產(chǎn)能力。
總而言之,摩爾線(xiàn)程選擇了一條最艱難,但可能也是最正確的道路。他們沒(méi)有滿(mǎn)足于在某個(gè)單點(diǎn)上追趕或超越,而是立足于未來(lái),從根本上思考如何為這個(gè)時(shí)代提供最先進(jìn)的“生產(chǎn)力工具”。
這,就是摩爾線(xiàn)程給出的答案,一個(gè)不止于快,更關(guān)乎未來(lái)的答案。
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。