董女
金磊發(fā)自WAIC量子位|公眾號QbitAI
放眼當(dāng)下,到底哪個芯片跑滿血DeepSeek是最快的?
答案很意外——不是你以為的英偉達,而是一家國產(chǎn)GPU。
因為現(xiàn)在它的速度,已經(jīng)直接來到了100tokens/s!
這個速度相比國外GPU的50tokens/s和國內(nèi)的15tokens/s,已經(jīng)稱得上是快上了一個數(shù)量級。
若是將三者放在一起同時運行,效果會更加一目了然。
當(dāng)中間的國產(chǎn)GPU以行云流水之勢給出了完整準(zhǔn)確答案之際,兩邊的“選手”則是還在深度思考過程中:
那么這個國產(chǎn)GPU到底是誰?
不賣關(guān)子,它就是摩爾線程。
但這時肯定有很多小伙伴會問了,從成立到現(xiàn)在不到5年時間,摩爾線程的何以取得如此速度。
在量子位了解完其在“算力之道”的全貌之后發(fā)現(xiàn),答案,遠比“做出一顆更快的芯片”要宏大和深刻。
已經(jīng)造了個AI超級工廠
沒錯,這是因為摩爾線程在搞算力這件事兒上,已經(jīng)給自家打造了一個AI超級工廠(AIFoundry)。
提到Foundry這個單詞,很多人第一反應(yīng)或許就是造芯片時的“晶圓廠”,它的價值取決于于生產(chǎn)芯片的良率、產(chǎn)能和工藝先進性。
但AI超級工廠,它并非指代一個物理上生產(chǎn)芯片的晶圓廠,而是一個類比的概念:
這個AI工廠的進化,就像升級制程一樣,絕不是改改某個單一技術(shù)就完事兒了,而是一個系統(tǒng)性、全方位的變革。
它要求整個技術(shù)?!懊撎Q骨”:從最底層的芯片架構(gòu)必須革新、到集群的整體架構(gòu)得巧妙設(shè)計,再到軟件層面——算法怎么調(diào)更聰明,資源調(diào)度怎么跑更高效,每一個環(huán)節(jié)都至關(guān)重要。
正是這種從根兒上動起來的基礎(chǔ)設(shè)施大改造,才能真正釋放AI算力,實現(xiàn)大規(guī)?!吧a(chǎn)”和“迭代”前沿AI大模型。
需要強調(diào)的一點是,要建成這樣一座超級工廠,絕非暴力地將成千上萬張顯卡堆砌在一起這么簡單。
它需要五大核心要素的緊密耦合與協(xié)同進化,缺一不可;
這個AI工廠的產(chǎn)能,用一套公式可概括為:
AI工廠生產(chǎn)效率=加速計算通用性×單芯片有效算力×單節(jié)點效率×集群效率×集群穩(wěn)定性
摩爾線程正是圍繞這五大要素,構(gòu)建了技術(shù)護城河。
全功能GPU:超級工廠的基石
AI超級工廠的基石,指的是一顆具備強大通用性的“全功能GPU”。因為回顧算力的進化史,其實就是一部全功能GPU的發(fā)展史。
從最初只能加速3D圖形的“顯卡”(VGACard),到開放編程接口、允許開發(fā)者創(chuàng)造無限可能的“現(xiàn)代圖形處理器”,再到被廣泛應(yīng)用于超算、深度學(xué)習(xí)、區(qū)塊鏈等領(lǐng)域的通用計算平臺,GPU的每一次飛躍,都源于其通用性的拓展。
單一功能的加速器,如早期的3D加速卡或今天的某些專用AI芯片(ASIC),雖然在特定任務(wù)上效率極高,但其靈活性差、編程困難,無法適應(yīng)AI模型日新月異、應(yīng)用場景層出不窮的發(fā)展趨勢。
一個AI模型可能既需要處理語言,也需要理解圖像,甚至要進行物理世界的模擬。如果工廠的“機床”只能處理一種任務(wù),那么它很快就會被淘汰。
因此,摩爾線程從創(chuàng)立之初就堅持打造真正的全功能GPU,既要“功能完備”,也要“精度完整”。
首先是“功能完備”,即芯片內(nèi)部集成了四大核心引擎:
AI計算加速引擎:不僅能做推理,更能做訓(xùn)練,實現(xiàn)訓(xùn)推一體。先進的3D圖形渲染引擎:支持DX12等現(xiàn)代圖形API,滿足游戲、AIGC、數(shù)字孿生等視覺計算需求。物理仿真與科學(xué)計算引擎:這是常被忽視卻至關(guān)重要的一環(huán)。未來的AgenticAI、空間智能都需要與物理世界交互,強大的科學(xué)計算能力是連接數(shù)字世界與物理世界的橋梁。超高清視頻編解碼引擎:AI的計算結(jié)果最終需要通過視覺和聽覺呈現(xiàn)給人類,高清、低延遲的流媒體處理能力是人機交互體驗的保證。
其次,“全計算精度”覆蓋。從FP32、FP16到業(yè)界前沿的FP8,乃至更低精度的INT8/INT4,完整的精度支持讓開發(fā)者可以根據(jù)不同任務(wù)的需求,在性能和精度之間找到最佳平衡點。
特別是在大模型訓(xùn)練中,混合精度訓(xùn)練已是標(biāo)配,而摩爾線程是國內(nèi)極少數(shù)能夠提供FP8訓(xùn)練能力的平臺?!叭δ堋焙汀叭取蹦芰Γ_保了摩爾線程的GPU這座“機床”能夠承接各類AI模型生產(chǎn)訂單。
MUSA統(tǒng)一系統(tǒng)架構(gòu):超級工廠的“總設(shè)計師”
如果說全功能GPU是工廠的機床,那么MUSA就是整個工廠的“總設(shè)計師”。一個卓越的頂層架構(gòu),能夠決定一家公司未來十年甚至更長時間的技術(shù)路線和發(fā)展?jié)摿Α?/p>
MUSA的核心理念是“一個架構(gòu),萬千應(yīng)用”(OneArchitectureforManyApplications)。它采用創(chuàng)新的多引擎、可伸縮、可配置的統(tǒng)一系統(tǒng)架構(gòu),將GPU內(nèi)部的計算、通信、內(nèi)存、調(diào)度等功能進行頂層設(shè)計和統(tǒng)一管理。
先來看可伸縮,顧名思義,MUSA架構(gòu)是可以根據(jù)不同客戶、不同市場的需求,快速裁剪出優(yōu)化的芯片配置,大幅降低了新品芯片的開發(fā)成本。
其次,資源全局共享,簡單說,就是把所有硬件資源——像計算核心、內(nèi)存、通信這些——都打通,變成一個大資源池,然后用智能調(diào)度靈活分配。
這招兒直接解決了大問題:以前那種單引擎GPU,多個任務(wù)一起跑的時候特別容易卡?,F(xiàn)在好了,所有資源大家共享,按需取用!
再例如,統(tǒng)一編程接口與指令集,開發(fā)者只需學(xué)習(xí)一套API和編程模型,就能驅(qū)動MUSA架構(gòu)下所有的硬件引擎,極大地降低了開發(fā)門檻,提升了開發(fā)效率。
除此之外,MUSA架構(gòu)內(nèi)部包含了多個摩爾線程自研的核心技術(shù)。
例如,專門為FP8設(shè)計的“Transformer引擎”,使其FP8的訓(xùn)練性能相比沒有該引擎的方案能提升30%;獨創(chuàng)的ACE異步通信引擎,可以讓計算和通信并行不悖,解決了傳統(tǒng)架構(gòu)中通信會占用計算資源的痛點,減少了15%的計算資源損耗,將GPU的算力釋放;自研的MTLink2.0互聯(lián)協(xié)議,實現(xiàn)了GPU之間高效、低延遲的通信,提供了高出國內(nèi)行業(yè)平均水平60%的帶寬,為大規(guī)模集群部署奠定了堅實基礎(chǔ)。
MUSA架構(gòu)的先進性,確保了摩爾線程的每一顆芯片都不是孤立的算力單元,而是一個高度協(xié)同、管理高效的“作戰(zhàn)小組”,有效提升每顆芯片有效算力,為整個AI超級工廠提供了堅實的、可擴展的算力底座。
MUSA全棧系統(tǒng)軟件:超級工廠的“操作系統(tǒng)”與“工具箱”
再好的硬件,若是沒有高效的軟件,同樣也無法發(fā)揮其全部潛力。因此,摩爾線程打造了與MUSA硬件架構(gòu)深度耦合的全棧軟件系統(tǒng),它在AI超級工廠中扮演著“操作系統(tǒng)”和“開發(fā)者工具箱”的角色。
這個軟件棧可以說是覆蓋了從底層驅(qū)動到上層應(yīng)用框架的方方面面:
高效驅(qū)動:摩爾線程的驅(qū)動經(jīng)過深度優(yōu)化,核函數(shù)啟動時間縮短50%,任務(wù)派發(fā)延遲極低,可以一次性并發(fā)處理上千個任務(wù),領(lǐng)先業(yè)界水平。核心算子庫:對標(biāo)國際大廠的cuDNN,摩爾線程的muDNN在算子層面進行了大量優(yōu)化,GEMM算子算力利用率達98%,F(xiàn)lashAttention算子算力利用率突破95%。
通信效能躍升:MCCL訓(xùn)練通信庫實現(xiàn)RDMA網(wǎng)絡(luò)97%帶寬利用率;基于異步通信引擎優(yōu)化計算通信并行,集群性能提升10%。生態(tài)兼容與Triton支持:通過MUSIFY等工具,實現(xiàn)了對PyTorch、TensorFlow等主流AI框架的無縫支持。尤其值得一提的是,基于Triton-MUSA編譯器+MUSAGraph實現(xiàn)DeepSeekR1推理加速1.5倍,全面兼容Triton等主流框架。完善的開發(fā)者套件:提供了一整套涵蓋性能分析(Profiler)、調(diào)試、調(diào)優(yōu)、一鍵部署等功能的工具鏈,如同一個“百寶箱”,讓開發(fā)者能夠洞察硬件運行的每一個細節(jié),榨干硬件的每一分性能。
這套全棧系統(tǒng)軟件,確保了開發(fā)者不僅能“用起來”,更能“用得好”,將MUSA硬件架構(gòu)的強大能力順暢地傳遞到上層應(yīng)用,是連接硬件與算法的關(guān)鍵樞紐。并且通過MUSA全棧系統(tǒng)軟件的優(yōu)化,摩爾線程實現(xiàn)了“單節(jié)點計算效率”全面提升。
KUAE計算集群:超級工廠的“生產(chǎn)車間”
單卡、單節(jié)點的性能再強,也無法完成動輒千億、萬億參數(shù)大模型的訓(xùn)練。AI超級工廠必須以大規(guī)模集群的形式存在。為此,摩爾線程構(gòu)建了夸娥(KUAE)大規(guī)模智能計算集群。
夸娥計算集群遠非簡單的服務(wù)器堆疊,它是一個軟硬一體化的系統(tǒng)工程,相當(dāng)于AI大模型的“生產(chǎn)車間”:
軟硬一體化設(shè)計:從服務(wù)器節(jié)點、交換機到機柜,再到上層的集群管理軟件、任務(wù)調(diào)度系統(tǒng),全部進行了協(xié)同設(shè)計和優(yōu)化。創(chuàng)新5D并行訓(xùn)練:摩爾線程整合數(shù)據(jù)并行(DP)、流水線并行(PP)、張量并行(TP)等所有主流的并行訓(xùn)練策略,全面支持Transformer等主流架構(gòu),并能根據(jù)模型特點自動搜索和推薦最優(yōu)的并行方案。端到端訓(xùn)練優(yōu)化:覆蓋了從數(shù)據(jù)預(yù)處理、模型預(yù)訓(xùn)練、強化學(xué)習(xí)、微調(diào)到驗證評估的全流程,提供一站式服務(wù)。性能仿真工具(Simumax):自主研發(fā)的Simumax工具面向超大規(guī)模集群自動搜索最優(yōu)并行策略,精準(zhǔn)模擬FP8混合精度訓(xùn)練與算子融合,為DeepSeek等模型縮短訓(xùn)練周期提供科學(xué)依據(jù)。高效Checkpoint:針對大模型穩(wěn)定性難題,創(chuàng)新CheckPoint加速方案利用RDMA技術(shù),將百GB級備份恢復(fù)時間從數(shù)分鐘壓縮至1秒,提升GPU有效算力利用率。
通過夸娥計算集群,摩爾線程將單點的GPU性能優(yōu)勢,成功擴展到了千卡、萬卡乃至更大規(guī)模的集群層面,構(gòu)建起了一個真正具備強大“生產(chǎn)力”的AI超級工廠。并且通過實測,KUAE2大規(guī)模智算集群,在不同架構(gòu)模型的MFU,已經(jīng)達到了行業(yè)領(lǐng)先水平。
零中斷容錯技術(shù):超級工廠的“安全生產(chǎn)協(xié)議”
對于一個需要7x24小時不間斷運行的AI超級工廠來說,穩(wěn)定性壓倒一切。一次意外的宕機,可能意味著數(shù)百萬美元的損失和數(shù)周工作的付諸東流。因此,摩爾線程開發(fā)了獨有的“零中斷容錯技術(shù)”,這是保障工廠穩(wěn)定運行的“安全生產(chǎn)協(xié)議”。
傳統(tǒng)的容錯機制,在硬件(如GPU卡)發(fā)生故障時,需要暫停整個訓(xùn)練任務(wù),人工替換硬件,再從最近的Checkpoint恢復(fù),整個過程耗時耗力。而摩爾線程的零中斷技術(shù)則完全不同:
零中斷容錯技術(shù):當(dāng)某個節(jié)點變慢或出現(xiàn)故障時,僅隔離受影響節(jié)點組,其余節(jié)點繼續(xù)訓(xùn)練,備機無縫接入,全程無中斷。這一方案使KUAE集群有效訓(xùn)練時間占比超99%,大幅降低恢復(fù)開銷。多維度訓(xùn)練洞察:通過多維度的數(shù)據(jù)監(jiān)控和AI預(yù)測模型,系統(tǒng)能夠提前感知到哪些節(jié)點可能會成為“慢節(jié)點”,并進行預(yù)警或隔離,實現(xiàn)動態(tài)監(jiān)測與智能診斷,異常處理效率提升50%;集群自檢及調(diào)度優(yōu)化:在訓(xùn)練任務(wù)開始前,系統(tǒng)會自動對整個集群進行“體檢”,確保所有軟硬件都處于最佳狀態(tài),如同飛機起飛前的安全檢查,訓(xùn)練成功率提高10%,為大規(guī)模AI訓(xùn)練提供穩(wěn)定保障。
總結(jié)來看,上述的五大要素,即全功能GPU、MUSA架構(gòu)、全棧軟件、KUAE集群、零中斷容錯技術(shù),共同構(gòu)成了摩爾線程的AI超級工廠。
它是一個有機的整體,從芯片設(shè)計的最底層到集群管理的最上層,環(huán)環(huán)相扣,協(xié)同進化。正是這個完整的、端到端的體系,才造就了文章開頭的性能表現(xiàn)。
那么接下來的一個問題是:
為什么要造AI超級工廠?
這個問題的答案,或許植根于摩爾線程對計算革命過去、現(xiàn)在與未來的深刻洞察。
十年前,以人臉識別、自動駕駛為代表的“感知AI”大爆發(fā),催生了第一批AI巨頭。而從2022年ChatGPT橫空出世至今,我們正處在“生成式AI”的指數(shù)級爆發(fā)期。
大模型的“智商”迭代速度令人咋舌,從去年還在人類平均水平的四五十分,到如今頂尖模型已經(jīng)飆升至七八十分,直逼人類頂尖水準(zhǔn)。
模型的迭代速度,也從過去的數(shù)月一更,壓縮到如今的數(shù)周甚至每周一更。這場競賽的背后,驅(qū)動力只有一個——算力。
正如馬斯克能夠憑借其20萬張H100,讓Grok模型在短時間內(nèi)登頂排行榜,這殘酷地揭示了一個事實:ScalingLaw是AI發(fā)展的鐵律。
誰擁有更大、更強的算力基礎(chǔ)設(shè)施,誰就能更快地迭代模型,搶占技術(shù)和市場的制高點。
而展望未來五年,AgenticAI(智能體AI)和空間智能將成為新的爆發(fā)點。AI將不再僅僅是聊天的工具,而是成為可以自主完成復(fù)雜任務(wù)的“數(shù)字員工”,并與物理世界深度融合。
這一切,都意味著對算力的需求將再次呈幾何級數(shù)增長。在這樣的大背景下,僅僅滿足于當(dāng)下的計算能力是遠遠不夠的,必須為未來更加龐大的計算需求做好準(zhǔn)備。
面對永無止境的算力需求,僅僅追求“快”是片面的。未來的計算,更需要的是全方位的“穩(wěn)”——穩(wěn)定、可靠、高效、通用。
這正是建設(shè)AI超級工廠的根本原因。
訓(xùn)練一個萬億參數(shù)的大模型,好比建造一座港珠澳大橋,是一項極其復(fù)雜的系統(tǒng)工程。它對基礎(chǔ)設(shè)施的要求,堪比建造一座芯片晶圓廠。
你不能指望靠“人海戰(zhàn)術(shù)”,找十億個兒童去抬起一棟大樓;同樣,你也不能簡單地將一萬張低效的顯卡堆在一起,就期望能訓(xùn)練出高質(zhì)量的大模型。
這個過程充滿了挑戰(zhàn),例如在成本方面,一次大規(guī)模訓(xùn)練動輒耗費數(shù)月和數(shù)百萬美元,任何中斷或失敗都是巨大的損失。
再如面對復(fù)雜的系統(tǒng),上千個節(jié)點、上萬顆芯片如何高效通信、同步?軟件和硬件如何完美適配?又該如何快速定位和解決問題?
還有在實際應(yīng)用過程中,往往任務(wù)又是多樣性的:今天訓(xùn)練語言模型,明天可能就要處理多模態(tài)數(shù)據(jù),后天又要進行科學(xué)計算……
這些挑戰(zhàn),都無法通過購買單一的“最快芯片”來解決。它需要一個從底層硬件到上層軟件,再到集群管理和運維服務(wù)的端到端解決方案。
這恰恰是摩爾線程“AI超級工廠”的核心價值所在——它提供的不是孤立的算力,而是一種確定性的、高效率的、高成功率的AI模型生產(chǎn)能力。
總而言之,摩爾線程選擇了一條最艱難,但可能也是最正確的道路。他們沒有滿足于在某個單點上追趕或超越,而是立足于未來,從根本上思考如何為這個時代提供最先進的“生產(chǎn)力工具”。
這,就是摩爾線程給出的答案,一個不止于快,更關(guān)乎未來的答案。
來源:紅網(wǎng)
作者:柳坤綠
編輯:況馨香
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。