世界人工智能大會(WAIC2025)前夕,摩爾線程以“算力進化,精度革命”為主題舉辦技術(shù)分享會,創(chuàng)新性提出“AI工廠”理念,旨在破局生成式AI爆發(fā)的大模型生產(chǎn)效率。
這意味著作為國內(nèi)領(lǐng)先的GPU廠商,摩爾線程從底層芯片架構(gòu)創(chuàng)新的單點性技術(shù)創(chuàng)新,向集群整體架構(gòu)的優(yōu)化,再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的全面升級,也是應(yīng)對AI時代發(fā)展,模型參數(shù),算力需求進一步挑戰(zhàn)的主動布局。這種全方位的基礎(chǔ)設(shè)施變革,將推動AI訓(xùn)練從千卡級向萬卡級乃至十萬卡級規(guī)模演進,以系統(tǒng)級工程實現(xiàn)生產(chǎn)力和創(chuàng)新效率的飛躍。
會上,摩爾線程CEO張建中圍繞“AI工廠”理念,以及摩爾線程在打造AI工廠方面的五大核心能力做了詳細(xì)介紹。
整體而言,在摩爾線程定義的以智能作為“產(chǎn)能”的“AI工廠”中,生產(chǎn)效率由五大核心要素決定成功與否:AI工廠生產(chǎn)效率=加速計算通用性*單芯片有效算力*單節(jié)點效率*集群效率*集群穩(wěn)定性,每一個環(huán)節(jié)都要求做到極致。
核心技術(shù)一:全功能全精度,實現(xiàn)加速計算通用性
加速計算芯片本身的強大通用性,是打造“AI工廠”的核心基石。
這要求單芯片能夠覆蓋多場景,才能支持多樣化的模型訓(xùn)練。而這也是摩爾線程從成立之初以來的產(chǎn)品定位“全功能GPU”,在創(chuàng)新MUSA架構(gòu)的支持下,摩爾線程單GPU芯片可以同時支持AI計算加速、圖形渲染、是物理仿真和科學(xué)計算、超高清視頻編解碼的技術(shù)能力。
此外,精度完整性也是衡量全功能GPU通用計算能力的核心指標(biāo)。在計算精度方面,其支持從FP64至INT8的完整精度譜系,是國內(nèi)極少數(shù)具備FP8大模型訓(xùn)練平臺的廠商,通過FP8混合精度技術(shù),有效提升訓(xùn)推一體能力,在主流前沿大模型訓(xùn)練中實現(xiàn)20%~30%的性能躍升。
核心技術(shù)二:自研MUSA架構(gòu),提升芯片有效算力
強大的芯片有效算力是作為“AI工廠”的核心競爭力。而作為GPU的“靈魂”,創(chuàng)新的架構(gòu)設(shè)計往往決定了GPU的計算能力、能效比、適用場景乃至技術(shù)上限。
摩爾線程自研的MUSA架構(gòu),從設(shè)計之初,便完整考慮到面向未來多樣計算場景的需求,通過多引擎可配置統(tǒng)一系統(tǒng)架構(gòu),實現(xiàn)一個架構(gòu)在不同領(lǐng)域的應(yīng)用,統(tǒng)一編程接口,并著力在計算、內(nèi)存、通信三個層面實現(xiàn)突破,顯著提升單GPU運算效率。
計算、通信、存儲、指令集之間的相互交接、相互協(xié)調(diào)、相互調(diào)度的一系列功能需求,要在頂層設(shè)計當(dāng)中完整地考慮進去。
摩爾線程采用創(chuàng)新的多引擎、可伸縮GPU架構(gòu),通過硬件資源池化及動態(tài)資源調(diào)度技術(shù),構(gòu)建了全局共享的計算、內(nèi)存與通信資源池。這一設(shè)計不僅突破了傳統(tǒng)GPU功能單一的限制,還在保障通用性的同時顯著提升了資源利用率。其參數(shù)化配置可伸縮架構(gòu)允許面向目標(biāo)市場快速裁剪出優(yōu)化的芯片配置,大幅降低了新品芯片的開發(fā)成本。
這樣的架構(gòu)能便于開發(fā)者和用戶在底層直接調(diào)用相關(guān)引擎,將各種不同的硬件減速流水線pipeline起來,而所有結(jié)果共享一個內(nèi)存和資源池,這是最典型的數(shù)據(jù)驅(qū)動、引擎支持和引擎計算的統(tǒng)一系統(tǒng)架構(gòu),可以讓工作效率更高。
在性能方面,AI加速系統(tǒng)如何讓性能發(fā)揮得更好,需要有功能定制的核心計算引擎。摩爾線程通過兩套自研的AI計算加速系統(tǒng):張量計算引擎(TCE)、張量訪存引擎(TME),實現(xiàn)對算、存環(huán)節(jié)的針對性管理和調(diào)度,更好地發(fā)揮效率。此外,為了使眾多工作、步驟、引擎保持同步不亂、有條不紊,摩爾線程自主設(shè)計了引擎異步流水(ATB)??梢园焉鲜龉ぷ鲀?nèi)容Pipeline起來,且不需要等待。
在計算層面,摩爾線程的AI加速系統(tǒng)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。作為國內(nèi)首批實現(xiàn)FP8算力量產(chǎn)的GPU廠商,其FP8技術(shù)通過快速格式轉(zhuǎn)換、動態(tài)范圍智能適配和高精度累加器等創(chuàng)新設(shè)計,在保證計算精度的同時,將Transformer計算性能提升約30%。
摩爾線程透露,設(shè)計FP8的時候,摩爾線程研發(fā)團隊特別設(shè)計了一個FP8的Transformer引擎,專門用于FP8的加速計算。Transformer引擎是摩爾線程平湖架構(gòu)(第四代GPU架構(gòu))中一個核心科技,從而帶來計算性能的顯著提升。
在通信能力方面,摩爾線程獨創(chuàng)ACE(異步通信引擎),減少了15%的計算資源損耗,MTLink2.0互聯(lián)技術(shù)提供了高出國內(nèi)行業(yè)平均水平60%的帶寬。在不同數(shù)據(jù)包的傳送上,Scale-Up效率可以最高提升30%,平均在15%以上。這些功能可以讓GPU之間不同的復(fù)雜拓?fù)浣Y(jié)構(gòu)不受計算環(huán)境的影響,可以實現(xiàn)卡間高效互聯(lián)通信。
在存儲方面,MUSA存儲子系統(tǒng)實現(xiàn)了多維度的升級,通過多精度近存規(guī)約引擎、低延遲Scale-Up內(nèi)存順序模型、通算并行資源隔離等技術(shù),實現(xiàn)了50%的帶寬節(jié)省和60%的延遲降低。
核心技術(shù)三:MUSA全棧系統(tǒng)軟件,提升單節(jié)點計算效率
對GPU而言,單節(jié)點計算效率不僅依賴硬件算力,更取決于軟件能否讓硬件“跑滿”——避免算力閑置、數(shù)據(jù)傳輸阻塞、算子低效等問題。而MUSA全棧系統(tǒng)軟件的價值,正是通過全鏈路優(yōu)化,通過消除各環(huán)節(jié)的性能損耗、最大化硬件潛力,最終實現(xiàn)單節(jié)點效率的躍升。
主要包括幾點核心要素。
一是GPU驅(qū)動任務(wù)調(diào)度優(yōu)化。KernelLaunch(核函數(shù)啟動)是GPU/加速器計算中的核心調(diào)度機制,是指將計算任務(wù)從CPU主機傳輸?shù)紾PU設(shè)備并執(zhí)行的過程,本質(zhì)是鏈接軟件指令與硬件算力的橋梁。傳統(tǒng)KernelLauch延遲較高,導(dǎo)致GPU在任務(wù)空間頻繁空閑,形成計算空洞。而GPU空閑時,算力資源浪費,硬件利用率不足。
而摩爾線程的GPU驅(qū)動任務(wù)調(diào)度優(yōu)化能夠使得KernelLaunch時間縮短50%。支持千次計算指令單次并行下發(fā)以及55%的延遲減少。
二是打造極致性能算子庫。GEMM算子算力利用率達98%,F(xiàn)lashAttention算子算力利用率突破95%。
三是通信效能躍升。通過MCCL通信庫實現(xiàn)RDMA網(wǎng)絡(luò)97%帶寬利用率;基于異步通信引擎優(yōu)化計算通信并行,大模型訓(xùn)練集群整體性能提升10%。
四是低精度計算效率革新。實現(xiàn)對于FP8的計算性能優(yōu)化,大幅提升訓(xùn)練效能。FP8GEMM利用率處于行業(yè)領(lǐng)先水平。此外,行業(yè)首創(chuàng)細(xì)粒度重計算,采用創(chuàng)新的Recompute高效算法,計算開銷減少4倍,可以使得訓(xùn)練精度能保持得更高,累計誤差更小。
五是開發(fā)生態(tài)完善。Triton-MUSA編譯器對于vLLM、SGLang等,已實現(xiàn)開源Triton算子100%覆蓋。FlagGems算子庫支持160+熱點算子,支持率超過90%。MCC自研編譯器支持torchcompile,計算圖優(yōu)化加速比達1.5倍。MUTLASS高性能線性代數(shù)模板庫兼容支持CUTLASS/CuTe3.6.0。多精度支持TF32、FP16、BF16、INT8等主流AI計算。基于MUTLASS的GEMM性能可達muDNN手寫匯編性。
此外,為了服務(wù)廣大開發(fā)者,摩爾線程還打造了完整的軟件開發(fā)套件,對應(yīng)TorchProfiler,監(jiān)控、管理,performancetuning等一系列工具。同時,摩爾線程也計劃開放很多套件給所有開發(fā)者,同時也愿意傾聽開發(fā)者的意見。值得一提的是,今年10月,摩爾線程將舉辦首屆MUSA開發(fā)者大會。
核心技術(shù)四:自研KUAE大規(guī)模集群,優(yōu)化集群效率
當(dāng)單節(jié)點效率達到新高度,如何實現(xiàn)大規(guī)模集群的高效協(xié)作成為新的挑戰(zhàn)??涠穑↘UAE)是摩爾線程自研的計算集群,其中包括一系列的計算集群、軟件平臺、管理系統(tǒng)、優(yōu)化系統(tǒng)以及維護和服務(wù)等流程。
在提升單節(jié)點計算效率的基礎(chǔ)上,摩爾線程自研KUAE計算集群通過5D大規(guī)模分布式并行計算技術(shù),實現(xiàn)上千節(jié)點的高效協(xié)作。
在性能仿真與優(yōu)化方面,自主研發(fā)的Simumax工具面向超大規(guī)模集群自動搜索最優(yōu)并行策略,可以實現(xiàn)集群訓(xùn)練性能的最優(yōu)化。通過精準(zhǔn)模擬FP8混合精度訓(xùn)練與算子融合,為DeepSeek等模型縮短訓(xùn)練周期提供科學(xué)依據(jù)。
針對大模型穩(wěn)定性難題,摩爾線程通過創(chuàng)新CheckPoint加速方案利用RDMA技術(shù),將百GB級備份恢復(fù)時間從數(shù)分鐘壓縮至1秒,提升GPU有效算力利用率。
摩爾線程表示,夸娥(KUAE)的設(shè)計理念,首先要滿足應(yīng)用中的多方面要求,比如做并行處理,不光是做一個DP(數(shù)據(jù)并行)、PP(流水線并行)、EP(專家并行),幾乎所有不同的并行策略和方法都要支持,而且效率要做到最高。第二,秉持端到端的模型訓(xùn)練理念。模型訓(xùn)練之前數(shù)據(jù)要處理、預(yù)訓(xùn)練、后訓(xùn)練、模型評估等等,提供從數(shù)據(jù)處理到模型部署的一站式服務(wù)。
基于平湖架構(gòu)KUAE2智算集群,無論千卡或更大規(guī)模,摩爾線程正在提升其性能,并且MFU已達到行業(yè)領(lǐng)先水平。
核心技術(shù)五:零中斷容錯技術(shù),提升集群的穩(wěn)定性和可靠性
摩爾線程提出的AI工廠方案:從單芯片算力、效率,再到單節(jié)點和集群效率,彼此之間是相乘的關(guān)系,只有每一個環(huán)節(jié)都做到極致,才能最大限度地發(fā)揮能力,而穩(wěn)定性和可靠性是決定集群最后成敗的關(guān)鍵。特別在萬卡級AI集群中,硬件故障導(dǎo)致的訓(xùn)練中斷會嚴(yán)重浪費算力。
而在提升集群穩(wěn)定性方面,摩爾線程創(chuàng)新推出零中斷容錯技術(shù),故障發(fā)生時僅隔離受影響節(jié)點組,其余節(jié)點繼續(xù)訓(xùn)練,備機無縫接入,全程無中斷。這一方案使KUAE集群有效訓(xùn)練時間占比超99%,大幅降低恢復(fù)開銷。
在可靠性方面,摩爾線程通過多維度訓(xùn)練洞察方案,實現(xiàn)動態(tài)監(jiān)測與智能診斷,解決訓(xùn)練中的慢節(jié)點致命短板,可以“看得見”每一片GPU從而實施精確管理,該方案使得慢節(jié)點、Hang等異常處理效率提升50%。
同時,為保證集群在訓(xùn)練起步階段的成功率,摩爾線程的可靠性方案還結(jié)合了集群巡檢與起飛檢查,包含一系列自動化工具使其自動調(diào)度,優(yōu)化管理效率,使得訓(xùn)練成功率以及速度提高10%。
從訓(xùn)練到驗證:構(gòu)建完整閉環(huán)
完善的“AI工廠”不僅需要高效訓(xùn)練大模型,還需具備推理驗證能力,從而構(gòu)建起完整閉環(huán)。
在推理驗證方面,摩爾線程開發(fā)了相應(yīng)工具方案,覆蓋LLM、視覺、生成類模型等全流程推理解決方案。
一是MTTransformer自研推理引擎,面向LLM實現(xiàn)極致優(yōu)化。二是TensorX自研推理引擎,面向生成類和視覺類。三是vLLM-MUSA,在NTT和DirectX不支持的情況下,用戶可以使用vLLM,vLLM-MUSA能夠達到推理引擎的最高性能的80%,可以讓很多用戶更快速地實現(xiàn)適配。
經(jīng)過測試,摩爾線程最新AI旗艦產(chǎn)品MTTS5000針對DeepSeekR1滿血版大語言模型的推理速度,達到100tokens/s,在同國際主流GPU和其他國產(chǎn)GPU的比較中,推理處于行業(yè)領(lǐng)先。
結(jié)語
此次摩爾線程技術(shù)分享會上呈現(xiàn)的,是以AI工廠為核心載體,成功搭建起貫穿“訓(xùn)練-推理-部署”全流程的高效體系,這不僅是其自身技術(shù)實力的體現(xiàn),更標(biāo)志著國產(chǎn)計算基礎(chǔ)設(shè)施在支撐AGI時代規(guī)模化、高效率、高可靠模型生產(chǎn)方面,邁出了關(guān)鍵且堅實的一步。
從圖形渲染,到AI算力引擎,摩爾線程的全功能GPU始終走在加速計算革新的前沿。以“KUAE+MUSA”構(gòu)建的智算業(yè)務(wù)核心為驅(qū)動力,摩爾線程正不斷拓展其影響力,加速為千行百業(yè)注入AI動能。未來,在物理仿真、AIGC、科學(xué)計算、具身智能、智能體、醫(yī)療影像分析、工業(yè)大模型等關(guān)鍵領(lǐng)域,由全功能GPU驅(qū)動的AI技術(shù)有望將在摩爾線程的推動下,實現(xiàn)更廣泛的應(yīng)用與深度部署,為國產(chǎn)計算力量的崛起和AI產(chǎn)業(yè)的蓬勃發(fā)展書寫新的篇章。
怎樣用CDR+PS畫服裝效果圖???百度經(jīng)驗
首先效果圖跟款式圖是有區(qū)別的,款式圖在于很好的將衣服本身的細(xì)節(jié)展現(xiàn),效果圖是很好的將衣服在人體穿著效果展現(xiàn)——-。將所要的模特拉入CDR中。可以自己畫或者是用人臺模特——。我們設(shè)置一下畫筆的粗細(xì),如果找不到,就在【編輯→屬性】里面找,把線條的粗細(xì)設(shè)置好,還有設(shè)置平角__。我們開始第一步,用手繪工具把大概形狀畫出,接著用形 1.CDR 常用版本X4,X6,X7,X8 是一款矢量圖繪制軟件,矢量圖簡單理解就是放大不會失真出現(xiàn)像素點,可以無限放大的圖。矢量圖繪制一般用CDR和AI,也就是繪制服裝款式圖,大多用CDR,操作簡單,特別是在線條的調(diào)整上,CDR的曲線工具使用起來十分的方便便捷,很好調(diào)整-——。工藝細(xì)節(jié)處理精細(xì),版師和車版可以直觀的看明白還有呢?掌握中式雪紡上衣裁剪要點,輕松實現(xiàn)春季時尚穿搭