加沙的孩子即將被餓死,BIBI認(rèn)為漢堡王比麥當(dāng)勞好吃
金磊發(fā)自WAIC量子位|公眾號QbitAI
放眼當(dāng)下,到底哪個芯片跑滿血DeepSeek是最快的?
答案很意外——不是你以為的英偉達(dá),而是一家國產(chǎn)GPU。
因?yàn)楝F(xiàn)在它的速度,已經(jīng)直接來到了100tokens/s!
這個速度相比國外GPU的50tokens/s和國內(nèi)的15tokens/s,已經(jīng)稱得上是快上了一個數(shù)量級。
若是將三者放在一起同時(shí)運(yùn)行,效果會更加一目了然。
當(dāng)中間的國產(chǎn)GPU以行云流水之勢給出了完整準(zhǔn)確答案之際,兩邊的“選手”則是還在深度思考過程中:
那么這個國產(chǎn)GPU到底是誰?
不賣關(guān)子,它就是摩爾線程。
但這時(shí)肯定有很多小伙伴會問了,從成立到現(xiàn)在不到5年時(shí)間,摩爾線程的何以取得如此速度。
在量子位了解完其在“算力之道”的全貌之后發(fā)現(xiàn),答案,遠(yuǎn)比“做出一顆更快的芯片”要宏大和深刻。
已經(jīng)造了個AI超級工廠
沒錯,這是因?yàn)槟柧€程在搞算力這件事兒上,已經(jīng)給自家打造了一個AI超級工廠(AIFoundry)。
提到Foundry這個單詞,很多人第一反應(yīng)或許就是造芯片時(shí)的“晶圓廠”,它的價(jià)值取決于于生產(chǎn)芯片的良率、產(chǎn)能和工藝先進(jìn)性。
但AI超級工廠,它并非指代一個物理上生產(chǎn)芯片的晶圓廠,而是一個類比的概念:
這個AI工廠的進(jìn)化,就像升級制程一樣,絕不是改改某個單一技術(shù)就完事兒了,而是一個系統(tǒng)性、全方位的變革。
它要求整個技術(shù)?!懊撎Q骨”:從最底層的芯片架構(gòu)必須革新、到集群的整體架構(gòu)得巧妙設(shè)計(jì),再到軟件層面——算法怎么調(diào)更聰明,資源調(diào)度怎么跑更高效,每一個環(huán)節(jié)都至關(guān)重要。
正是這種從根兒上動起來的基礎(chǔ)設(shè)施大改造,才能真正釋放AI算力,實(shí)現(xiàn)大規(guī)?!吧a(chǎn)”和“迭代”前沿AI大模型。
需要強(qiáng)調(diào)的一點(diǎn)是,要建成這樣一座超級工廠,絕非暴力地將成千上萬張顯卡堆砌在一起這么簡單。
它需要五大核心要素的緊密耦合與協(xié)同進(jìn)化,缺一不可;
這個AI工廠的產(chǎn)能,用一套公式可概括為:
AI工廠生產(chǎn)效率=加速計(jì)算通用性×單芯片有效算力×單節(jié)點(diǎn)效率×集群效率×集群穩(wěn)定性
摩爾線程正是圍繞這五大要素,構(gòu)建了技術(shù)護(hù)城河。
全功能GPU:超級工廠的基石
AI超級工廠的基石,指的是一顆具備強(qiáng)大通用性的“全功能GPU”。因?yàn)榛仡櫵懔Φ倪M(jìn)化史,其實(shí)就是一部全功能GPU的發(fā)展史。
從最初只能加速3D圖形的“顯卡”(VGACard),到開放編程接口、允許開發(fā)者創(chuàng)造無限可能的“現(xiàn)代圖形處理器”,再到被廣泛應(yīng)用于超算、深度學(xué)習(xí)、區(qū)塊鏈等領(lǐng)域的通用計(jì)算平臺,GPU的每一次飛躍,都源于其通用性的拓展。
單一功能的加速器,如早期的3D加速卡或今天的某些專用AI芯片(ASIC),雖然在特定任務(wù)上效率極高,但其靈活性差、編程困難,無法適應(yīng)AI模型日新月異、應(yīng)用場景層出不窮的發(fā)展趨勢。
一個AI模型可能既需要處理語言,也需要理解圖像,甚至要進(jìn)行物理世界的模擬。如果工廠的“機(jī)床”只能處理一種任務(wù),那么它很快就會被淘汰。
因此,摩爾線程從創(chuàng)立之初就堅(jiān)持打造真正的全功能GPU,既要“功能完備”,也要“精度完整”。
首先是“功能完備”,即芯片內(nèi)部集成了四大核心引擎:
AI計(jì)算加速引擎:不僅能做推理,更能做訓(xùn)練,實(shí)現(xiàn)訓(xùn)推一體。先進(jìn)的3D圖形渲染引擎:支持DX12等現(xiàn)代圖形API,滿足游戲、AIGC、數(shù)字孿生等視覺計(jì)算需求。物理仿真與科學(xué)計(jì)算引擎:這是常被忽視卻至關(guān)重要的一環(huán)。未來的AgenticAI、空間智能都需要與物理世界交互,強(qiáng)大的科學(xué)計(jì)算能力是連接數(shù)字世界與物理世界的橋梁。超高清視頻編解碼引擎:AI的計(jì)算結(jié)果最終需要通過視覺和聽覺呈現(xiàn)給人類,高清、低延遲的流媒體處理能力是人機(jī)交互體驗(yàn)的保證。
其次,“全計(jì)算精度”覆蓋。從FP32、FP16到業(yè)界前沿的FP8,乃至更低精度的INT8/INT4,完整的精度支持讓開發(fā)者可以根據(jù)不同任務(wù)的需求,在性能和精度之間找到最佳平衡點(diǎn)。
特別是在大模型訓(xùn)練中,混合精度訓(xùn)練已是標(biāo)配,而摩爾線程是國內(nèi)極少數(shù)能夠提供FP8訓(xùn)練能力的平臺。“全功能”和“全精度”能力,確保了摩爾線程的GPU這座“機(jī)床”能夠承接各類AI模型生產(chǎn)訂單。
MUSA統(tǒng)一系統(tǒng)架構(gòu):超級工廠的“總設(shè)計(jì)師”
如果說全功能GPU是工廠的機(jī)床,那么MUSA就是整個工廠的“總設(shè)計(jì)師”。一個卓越的頂層架構(gòu),能夠決定一家公司未來十年甚至更長時(shí)間的技術(shù)路線和發(fā)展?jié)摿Α?/p>
MUSA的核心理念是“一個架構(gòu),萬千應(yīng)用”(OneArchitectureforManyApplications)。它采用創(chuàng)新的多引擎、可伸縮、可配置的統(tǒng)一系統(tǒng)架構(gòu),將GPU內(nèi)部的計(jì)算、通信、內(nèi)存、調(diào)度等功能進(jìn)行頂層設(shè)計(jì)和統(tǒng)一管理。
先來看可伸縮,顧名思義,MUSA架構(gòu)是可以根據(jù)不同客戶、不同市場的需求,快速裁剪出優(yōu)化的芯片配置,大幅降低了新品芯片的開發(fā)成本。
其次,資源全局共享,簡單說,就是把所有硬件資源——像計(jì)算核心、內(nèi)存、通信這些——都打通,變成一個大資源池,然后用智能調(diào)度靈活分配。
這招兒直接解決了大問題:以前那種單引擎GPU,多個任務(wù)一起跑的時(shí)候特別容易卡?,F(xiàn)在好了,所有資源大家共享,按需取用!
再例如,統(tǒng)一編程接口與指令集,開發(fā)者只需學(xué)習(xí)一套API和編程模型,就能驅(qū)動MUSA架構(gòu)下所有的硬件引擎,極大地降低了開發(fā)門檻,提升了開發(fā)效率。
除此之外,MUSA架構(gòu)內(nèi)部包含了多個摩爾線程自研的核心技術(shù)。
例如,專門為FP8設(shè)計(jì)的“Transformer引擎”,使其FP8的訓(xùn)練性能相比沒有該引擎的方案能提升30%;獨(dú)創(chuàng)的ACE異步通信引擎,可以讓計(jì)算和通信并行不悖,解決了傳統(tǒng)架構(gòu)中通信會占用計(jì)算資源的痛點(diǎn),減少了15%的計(jì)算資源損耗,將GPU的算力釋放;自研的MTLink2.0互聯(lián)協(xié)議,實(shí)現(xiàn)了GPU之間高效、低延遲的通信,提供了高出國內(nèi)行業(yè)平均水平60%的帶寬,為大規(guī)模集群部署奠定了堅(jiān)實(shí)基礎(chǔ)。
MUSA架構(gòu)的先進(jìn)性,確保了摩爾線程的每一顆芯片都不是孤立的算力單元,而是一個高度協(xié)同、管理高效的“作戰(zhàn)小組”,有效提升每顆芯片有效算力,為整個AI超級工廠提供了堅(jiān)實(shí)的、可擴(kuò)展的算力底座。
MUSA全棧系統(tǒng)軟件:超級工廠的“操作系統(tǒng)”與“工具箱”
再好的硬件,若是沒有高效的軟件,同樣也無法發(fā)揮其全部潛力。因此,摩爾線程打造了與MUSA硬件架構(gòu)深度耦合的全棧軟件系統(tǒng),它在AI超級工廠中扮演著“操作系統(tǒng)”和“開發(fā)者工具箱”的角色。
這個軟件??梢哉f是覆蓋了從底層驅(qū)動到上層應(yīng)用框架的方方面面:
高效驅(qū)動:摩爾線程的驅(qū)動經(jīng)過深度優(yōu)化,核函數(shù)啟動時(shí)間縮短50%,任務(wù)派發(fā)延遲極低,可以一次性并發(fā)處理上千個任務(wù),領(lǐng)先業(yè)界水平。核心算子庫:對標(biāo)國際大廠的cuDNN,摩爾線程的muDNN在算子層面進(jìn)行了大量優(yōu)化,GEMM算子算力利用率達(dá)98%,F(xiàn)lashAttention算子算力利用率突破95%。
通信效能躍升:MCCL訓(xùn)練通信庫實(shí)現(xiàn)RDMA網(wǎng)絡(luò)97%帶寬利用率;基于異步通信引擎優(yōu)化計(jì)算通信并行,集群性能提升10%。生態(tài)兼容與Triton支持:通過MUSIFY等工具,實(shí)現(xiàn)了對PyTorch、TensorFlow等主流AI框架的無縫支持。尤其值得一提的是,基于Triton-MUSA編譯器+MUSAGraph實(shí)現(xiàn)DeepSeekR1推理加速1.5倍,全面兼容Triton等主流框架。完善的開發(fā)者套件:提供了一整套涵蓋性能分析(Profiler)、調(diào)試、調(diào)優(yōu)、一鍵部署等功能的工具鏈,如同一個“百寶箱”,讓開發(fā)者能夠洞察硬件運(yùn)行的每一個細(xì)節(jié),榨干硬件的每一分性能。
這套全棧系統(tǒng)軟件,確保了開發(fā)者不僅能“用起來”,更能“用得好”,將MUSA硬件架構(gòu)的強(qiáng)大能力順暢地傳遞到上層應(yīng)用,是連接硬件與算法的關(guān)鍵樞紐。并且通過MUSA全棧系統(tǒng)軟件的優(yōu)化,摩爾線程實(shí)現(xiàn)了“單節(jié)點(diǎn)計(jì)算效率”全面提升。
KUAE計(jì)算集群:超級工廠的“生產(chǎn)車間”
單卡、單節(jié)點(diǎn)的性能再強(qiáng),也無法完成動輒千億、萬億參數(shù)大模型的訓(xùn)練。AI超級工廠必須以大規(guī)模集群的形式存在。為此,摩爾線程構(gòu)建了夸娥(KUAE)大規(guī)模智能計(jì)算集群。
夸娥計(jì)算集群遠(yuǎn)非簡單的服務(wù)器堆疊,它是一個軟硬一體化的系統(tǒng)工程,相當(dāng)于AI大模型的“生產(chǎn)車間”:
軟硬一體化設(shè)計(jì):從服務(wù)器節(jié)點(diǎn)、交換機(jī)到機(jī)柜,再到上層的集群管理軟件、任務(wù)調(diào)度系統(tǒng),全部進(jìn)行了協(xié)同設(shè)計(jì)和優(yōu)化。創(chuàng)新5D并行訓(xùn)練:摩爾線程整合數(shù)據(jù)并行(DP)、流水線并行(PP)、張量并行(TP)等所有主流的并行訓(xùn)練策略,全面支持Transformer等主流架構(gòu),并能根據(jù)模型特點(diǎn)自動搜索和推薦最優(yōu)的并行方案。端到端訓(xùn)練優(yōu)化:覆蓋了從數(shù)據(jù)預(yù)處理、模型預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)、微調(diào)到驗(yàn)證評估的全流程,提供一站式服務(wù)。性能仿真工具(Simumax):自主研發(fā)的Simumax工具面向超大規(guī)模集群自動搜索最優(yōu)并行策略,精準(zhǔn)模擬FP8混合精度訓(xùn)練與算子融合,為DeepSeek等模型縮短訓(xùn)練周期提供科學(xué)依據(jù)。高效Checkpoint:針對大模型穩(wěn)定性難題,創(chuàng)新CheckPoint加速方案利用RDMA技術(shù),將百GB級備份恢復(fù)時(shí)間從數(shù)分鐘壓縮至1秒,提升GPU有效算力利用率。
通過夸娥計(jì)算集群,摩爾線程將單點(diǎn)的GPU性能優(yōu)勢,成功擴(kuò)展到了千卡、萬卡乃至更大規(guī)模的集群層面,構(gòu)建起了一個真正具備強(qiáng)大“生產(chǎn)力”的AI超級工廠。并且通過實(shí)測,KUAE2大規(guī)模智算集群,在不同架構(gòu)模型的MFU,已經(jīng)達(dá)到了行業(yè)領(lǐng)先水平。
零中斷容錯技術(shù):超級工廠的“安全生產(chǎn)協(xié)議”
對于一個需要7x24小時(shí)不間斷運(yùn)行的AI超級工廠來說,穩(wěn)定性壓倒一切。一次意外的宕機(jī),可能意味著數(shù)百萬美元的損失和數(shù)周工作的付諸東流。因此,摩爾線程開發(fā)了獨(dú)有的“零中斷容錯技術(shù)”,這是保障工廠穩(wěn)定運(yùn)行的“安全生產(chǎn)協(xié)議”。
傳統(tǒng)的容錯機(jī)制,在硬件(如GPU卡)發(fā)生故障時(shí),需要暫停整個訓(xùn)練任務(wù),人工替換硬件,再從最近的Checkpoint恢復(fù),整個過程耗時(shí)耗力。而摩爾線程的零中斷技術(shù)則完全不同:
零中斷容錯技術(shù):當(dāng)某個節(jié)點(diǎn)變慢或出現(xiàn)故障時(shí),僅隔離受影響節(jié)點(diǎn)組,其余節(jié)點(diǎn)繼續(xù)訓(xùn)練,備機(jī)無縫接入,全程無中斷。這一方案使KUAE集群有效訓(xùn)練時(shí)間占比超99%,大幅降低恢復(fù)開銷。多維度訓(xùn)練洞察:通過多維度的數(shù)據(jù)監(jiān)控和AI預(yù)測模型,系統(tǒng)能夠提前感知到哪些節(jié)點(diǎn)可能會成為“慢節(jié)點(diǎn)”,并進(jìn)行預(yù)警或隔離,實(shí)現(xiàn)動態(tài)監(jiān)測與智能診斷,異常處理效率提升50%;集群自檢及調(diào)度優(yōu)化:在訓(xùn)練任務(wù)開始前,系統(tǒng)會自動對整個集群進(jìn)行“體檢”,確保所有軟硬件都處于最佳狀態(tài),如同飛機(jī)起飛前的安全檢查,訓(xùn)練成功率提高10%,為大規(guī)模AI訓(xùn)練提供穩(wěn)定保障。
總結(jié)來看,上述的五大要素,即全功能GPU、MUSA架構(gòu)、全棧軟件、KUAE集群、零中斷容錯技術(shù),共同構(gòu)成了摩爾線程的AI超級工廠。
它是一個有機(jī)的整體,從芯片設(shè)計(jì)的最底層到集群管理的最上層,環(huán)環(huán)相扣,協(xié)同進(jìn)化。正是這個完整的、端到端的體系,才造就了文章開頭的性能表現(xiàn)。
那么接下來的一個問題是:
為什么要造AI超級工廠?
這個問題的答案,或許植根于摩爾線程對計(jì)算革命過去、現(xiàn)在與未來的深刻洞察。
十年前,以人臉識別、自動駕駛為代表的“感知AI”大爆發(fā),催生了第一批AI巨頭。而從2022年ChatGPT橫空出世至今,我們正處在“生成式AI”的指數(shù)級爆發(fā)期。
大模型的“智商”迭代速度令人咋舌,從去年還在人類平均水平的四五十分,到如今頂尖模型已經(jīng)飆升至七八十分,直逼人類頂尖水準(zhǔn)。
模型的迭代速度,也從過去的數(shù)月一更,壓縮到如今的數(shù)周甚至每周一更。這場競賽的背后,驅(qū)動力只有一個——算力。
正如馬斯克能夠憑借其20萬張H100,讓Grok模型在短時(shí)間內(nèi)登頂排行榜,這殘酷地揭示了一個事實(shí):ScalingLaw是AI發(fā)展的鐵律。
誰擁有更大、更強(qiáng)的算力基礎(chǔ)設(shè)施,誰就能更快地迭代模型,搶占技術(shù)和市場的制高點(diǎn)。
而展望未來五年,AgenticAI(智能體AI)和空間智能將成為新的爆發(fā)點(diǎn)。AI將不再僅僅是聊天的工具,而是成為可以自主完成復(fù)雜任務(wù)的“數(shù)字員工”,并與物理世界深度融合。
這一切,都意味著對算力的需求將再次呈幾何級數(shù)增長。在這樣的大背景下,僅僅滿足于當(dāng)下的計(jì)算能力是遠(yuǎn)遠(yuǎn)不夠的,必須為未來更加龐大的計(jì)算需求做好準(zhǔn)備。
面對永無止境的算力需求,僅僅追求“快”是片面的。未來的計(jì)算,更需要的是全方位的“穩(wěn)”——穩(wěn)定、可靠、高效、通用。
這正是建設(shè)AI超級工廠的根本原因。
訓(xùn)練一個萬億參數(shù)的大模型,好比建造一座港珠澳大橋,是一項(xiàng)極其復(fù)雜的系統(tǒng)工程。它對基礎(chǔ)設(shè)施的要求,堪比建造一座芯片晶圓廠。
你不能指望靠“人海戰(zhàn)術(shù)”,找十億個兒童去抬起一棟大樓;同樣,你也不能簡單地將一萬張低效的顯卡堆在一起,就期望能訓(xùn)練出高質(zhì)量的大模型。
這個過程充滿了挑戰(zhàn),例如在成本方面,一次大規(guī)模訓(xùn)練動輒耗費(fèi)數(shù)月和數(shù)百萬美元,任何中斷或失敗都是巨大的損失。
再如面對復(fù)雜的系統(tǒng),上千個節(jié)點(diǎn)、上萬顆芯片如何高效通信、同步?軟件和硬件如何完美適配?又該如何快速定位和解決問題?
還有在實(shí)際應(yīng)用過程中,往往任務(wù)又是多樣性的:今天訓(xùn)練語言模型,明天可能就要處理多模態(tài)數(shù)據(jù),后天又要進(jìn)行科學(xué)計(jì)算……
這些挑戰(zhàn),都無法通過購買單一的“最快芯片”來解決。它需要一個從底層硬件到上層軟件,再到集群管理和運(yùn)維服務(wù)的端到端解決方案。
這恰恰是摩爾線程“AI超級工廠”的核心價(jià)值所在——它提供的不是孤立的算力,而是一種確定性的、高效率的、高成功率的AI模型生產(chǎn)能力。
總而言之,摩爾線程選擇了一條最艱難,但可能也是最正確的道路。他們沒有滿足于在某個單點(diǎn)上追趕或超越,而是立足于未來,從根本上思考如何為這個時(shí)代提供最先進(jìn)的“生產(chǎn)力工具”。
這,就是摩爾線程給出的答案,一個不止于快,更關(guān)乎未來的答案。
圍棋的趣味死活題
圍棋:黑先,角部死活題你看出來答案了沒有?
死活妙題:張栩九段的四路棋盤死活欣賞!黑先殺白,您答對了嗎???明...