【文/觀察者網(wǎng)專欄作者陳經(jīng)】
中美芯片斗爭,出現(xiàn)了一個有些意外的轉折。
2025年7月15日,英偉達CEO黃仁勛接受央視記者采訪時表示:“美國政府已經(jīng)批準了我們的出口許可,我們可以開始發(fā)貨了,所以我們將開始向中國市場銷售H20。我非常期待能很快發(fā)貨,對此我非常高興,這真是個非常好的消息。”
AMD發(fā)言人同日稱,美國商務部告知公司,MI308產品的許可申請將進入審查程序。與H20類似,MI308是AMD專為中國市場設計的AI芯片。
早前4月初,特朗普政府突然叫停了H20的銷售,讓英偉達碰上麻煩。黃仁勛罕見地主動介入政治,頻繁奔走于世界各地積極協(xié)商,2025年已三次來華穩(wěn)定與中國政府、客戶的關系。
另一頭,黃仁勛改變作風極積參與美國政治活動,努力說服特朗普政府改變政策,跟隨特朗普出訪中東,赴美國國會作證,和白宮積極建立良好關系。
7月23日,黃仁勛在華盛頓舉行的AI峰會上回答主持人提問時表示:“美國擁有任何國家都無法比擬的獨特優(yōu)勢,那就是特朗普總統(tǒng)?!彼S后解釋,特朗普上任第一天就認識到AI與能源的重要性,并推出減稅、放松監(jiān)管、AI行動計劃等一系列政策,為美國企業(yè)在全球競爭中創(chuàng)造了“不可復制的制度紅利”。特朗普本人也在現(xiàn)場回應:“你做得真棒!”一個科技工作者的政治工作做到這個水平,讓人感嘆。
另一個關鍵因素,是中國自身的技術能力。7月15日,美國財政部長貝森特在彭博電視臺節(jié)目中說,中國已經(jīng)研發(fā)出性能與H20相當?shù)男酒?,因此英偉達銷售H20芯片不存在問題。這是美國政府首次公開承認,中國在同類AI芯片上已具備可替代能力。
更為直接的解釋,是白宮“AI沙皇”大衛(wèi)·薩克斯點出的。2024年12月5日,特朗普宣布薩克斯將任新設的“白宮人工智能與加密貨幣事務專員”。今年7月16日,薩克斯對彭博社表示,恢復向中國大陸銷售英偉達H20芯片并非“讓步”,而是一種精準遏制華為的手段。薩克斯說:
“有充分理由這么做:你不希望把整個中國市場拱手讓給華為。即使是一顆性能被削弱的芯片,英偉達也能在中國拿下很大一塊份額,從而擠壓華為的空間。”
美國對H20解禁,政治相關的活動不難看到,但并非關鍵。貝森特與薩克斯所指的GPU技術與市場背景,是說服特朗普的關鍵,需要仔細解釋。
國產GPU市場與技術進展
對芯片業(yè)數(shù)據(jù)不太熟悉的,很難想到國產GPU市場有多大。
上圖為國外機構對華為昇騰GPU營收的估計,根據(jù)國內先進芯片產能估算,圖中910B、910C和910X是性能逐步提升的昇騰GPU型號。產能單位“kwpm”意為“千片晶圓每月”,而“Dieperwafer”是指每片晶圓上的“裸芯片”數(shù)量,單個芯片面積越大數(shù)值越小,可以看出910C和910X面積約是910B兩倍,而910B一片12寸晶圓(直徑300毫米,面積約700平方厘米)也只有78顆,說明GPU芯片面積是比較大的。
“yieldrate”是指良率,由于7nm先進芯片用DUV光刻機需要復雜的多重曝光工藝,外媒估計良率起步只有15%,逐步提升至50%,最高70%。910B、910C、910X的初始價格根據(jù)市場信息估為5萬、11萬、14萬,供應上來后會有降價。
這個估算很粗略,但結果極為驚人。2024年華為GPU芯片營收為429.47億人民幣,2025年預計大增240%至1461.07億,2026年再增45%至2120.23億,2027年2865.67億。2024年華為營收為8621億,凈利潤626億。如果利潤率極高的GPU能再有2000多億營收,這將極大支撐華為的研發(fā)能力擴增。這個估算肯定不準確,但能夠說明中國算力GPU市場的規(guī)模與利潤。
在5月21日的臺北國際電腦展新聞發(fā)布會上,黃仁勛說“英偉達在中國的市場份額從95%跌到了50%”。其實2024年,中國市場只占英偉達全球營收12.5%,對應金額約170億美元,并不算特別多,因為比H20更先進的GPU不能賣。雖然中國市場銷售受限,但并未影響英偉達全球營收飛速擴增。不過黃仁勛擔心的是,2025年之后中國算力GPU市場會有較大增長,英偉達讓出的市場份額會成為中國競爭對手的“成長加速器”。
英偉達算力GPU在國際上幾乎沒有競爭對手,2024年數(shù)據(jù)中心GPU營收約1150億美元,市場份額高達93%-94%。唯一值得一提的對手AMD份額僅約4%,英特爾等其它對手合計不到3%。
這種極為罕見的格局,其技術原因筆者曾于2024年初在《沒人能“殺死”1.5萬億美元的英偉達》文中解釋了。原本打輔助的GPU依靠通用計算功能與CPU地位倒轉,成為芯片計算能力的絕對主力。英偉達服務客戶的精神非常極致,在神經(jīng)網(wǎng)絡、科學計算、游戲開發(fā)、云計算、AIGC、大語言模型等眾多領域主動優(yōu)化,將CUDA打造成為事實上的“GPU操作系統(tǒng)”,而且沒有值得一提的競爭對手。
算力GPU相關程序開發(fā)極為復雜,“萬卡互聯(lián)”涉及到的軟硬件開發(fā)難度讓人望而生畏,需要優(yōu)化的環(huán)節(jié)極多。各環(huán)節(jié)稍有缺陷就會導致客戶研發(fā)流程卡頓、崩潰,一旦問題難以解決,結果就會是“送給人用都不要”,這就是AMD面對的尷尬情形。
只有英偉達在GPU芯片設計、GPU系統(tǒng)架構、HBM內存管理、NVlink/NVSwitch高速數(shù)據(jù)傳輸、InfiniBand連接GPU服務器、CUDA軟件配合硬件性能優(yōu)化等諸多環(huán)節(jié)都做到了極為優(yōu)秀,讓客戶可以方便地使用英偉達GPU進行大模型等前AI前沿研發(fā)與應用。
英偉達數(shù)據(jù)中心GPU產品高達73%的毛利潤率、90%以上的市場份額,都與這些極為困難的技術有關。競爭對手也許在某個專門的應用上指標超過英偉達,就如AMD不時宣傳的,但“實戰(zhàn)”應用就毛病一堆。領域還在以“超摩爾定律”快速發(fā)展,英偉達不斷推出Blackwell、Rubin等新GPU架構,有超過萬名員工在針對機器人、光刻等多類專業(yè)應用優(yōu)化CUDA系統(tǒng),軟硬件優(yōu)勢相當牢固。即使AMD等芯片業(yè)競爭對手在芯片設計領域很有實力,但如黃仁勛所言,英偉達已經(jīng)從芯片設計公司轉型成為“軟件公司”,不在同一個層面了。
讓外界震驚的是,在技術如此復雜的算力GPU領域,中國遭美國最高程度限制打壓,卻初步發(fā)展出了能與英偉達競爭的軟硬件系統(tǒng)能力。近期出來的標志性成果,是華為基于昇騰910C打造的CloudMatrix384超節(jié)點,性能直接對標英偉達GB200NVL72系統(tǒng)。
2025年4月16日,半導體與人工智能分析機構SemiAnalysis出報告詳細分析了華為CloudMatrix和910C。從中可以看出,雖然中國先進芯片制造技術受限,但用綜合解決方案追平了GPU芯片的性能差距。讓眾多西方公司難以追上英偉達的復雜技術問題,卻是中國公司的機會,復雜反而提供了多條路線優(yōu)化的可能性。
圖為GB200NVL72機柜,比一個成人高一些,體積不算太大。論單個芯片性能,910C與GB200有一定差距。算力用BF16稠密算力衡量(稀疏算力更高,但不穩(wěn)定),GB200高達2500TFLOPS(TFLOPS是指“每秒1萬億次浮點運算”),而910C是780TFLOPS,可簡略理解為三分之一算力。
GB200中的B100芯片是臺積電3nm工藝。B100有1040億個晶體管,B200是兩顆B100die先進封裝,共2080億個晶體管。再加上HBM相關差異,910C單卡性能與GB200相比,有不小的差距。除了算力與傳輸速率差距,還有7nm與3nm工藝導致的芯片功耗差距。
但是,華為用384顆910C組成的CloudMatrix384超節(jié)點(以下簡稱CM384),BF16算力高達300PFLOPS(PFLOPS等于1000TFLOPS),約為GB200NVL72的180PFLOPS的1.7倍。明顯的代價是,系統(tǒng)功耗約為NVL72的4.1倍,每TFLOPS功耗是2.5倍。也需要3.6倍的總內存容量,以及2.1倍的ScaleUpBandwidth總帶寬。
在物理尺寸上,CM384就明顯比GB200NVL72機柜要大得多。它有16個機架,12個做計算,4個用于數(shù)據(jù)交換,簡單目測就是NVL72機柜約16倍大小與占地面積。需要用五倍的芯片數(shù)量,10倍以上的體積與占地面積,來彌補單個芯片性能的差距。
但總算力趕超就是很大的成就,為此CM384架構上需要一些“大招”。有趣的是,只要想出了辦法,7nm與3nm芯片性能的差距,在整個GPU算力系統(tǒng)中就不算很關鍵了。例如華為擅長的數(shù)據(jù)通信領域技術,“光互聯(lián)”就起到了重要作用。
SemiAnalysis認為華為的工程優(yōu)勢在于系統(tǒng)層面,而不僅僅是芯片層面,還有拓撲網(wǎng)絡、光互聯(lián)技術和軟件堆棧的創(chuàng)新。總體來說,華為的技術方案的缺陷是成本高,能耗還高4倍,雖然總算力高,但綜合指標性能明顯不如英偉達NVL72。正常情況下,市場不會接受這樣的方案。
但現(xiàn)在情況就是極不正常。最大的不正常是英偉達AI算力產品不賣給中國,國產系統(tǒng)做出來能用就有價值。另一個不正常是,英偉達GPU產品利潤率極高,以至于華為對標產品的高成本、高能耗根本不是問題。
H20解禁的意義
筆者曾參觀過H20服務器生產線,主要成本是一個8×H20的盒子(英偉達銷售的時候就是8卡一起),還有主板、CPU、NVLink互聯(lián)及4×400GbE網(wǎng)卡等等,組裝成一個完整的服務器。它的總算力是BF161184TFLOPS,不比一個910C的理論算力高多少,不適合用于基座大模型訓練。
H20在中國需求不錯,一個重要原因是DeepSeek帶動了推理服務器部署需求,以及垂類模型訓練需求。H20單卡價格在10萬元左右,八卡服務器的價格在110萬元至130萬元之間,利潤很高。中國大模型研發(fā)應用還是更習慣CUDA生態(tài),H20組的推理應用較為成熟。
H20的特性是,算力不到H100的十分之一,但是HBM容量有96GB、141GB,HBM帶寬4.0TB/s,這都和H100接近。大模型推理應用時,矩陣計算遠不如訓練時密集,數(shù)據(jù)在GPU之間的傳輸多,H20的數(shù)據(jù)傳輸表現(xiàn)不錯。幾家頭部互聯(lián)網(wǎng)公司下了不少訂單,2024年就預訂了160億美元的H20。
H20的性能指標不算太強,國產GPU完全有能力接近它。除華為昇騰,還有摩爾線程、壁仞科技、沐曦、天數(shù)智芯等多家在做算力GPU。這幾家GPU頭部企業(yè)已全部啟動IPO或借殼程序,在科創(chuàng)板、港交所同步推進,上市節(jié)奏明顯加快。拿出了性能不錯的GPU產品的其它公司還有多家。
由于美國制裁的影響,中國企業(yè)即使覺得英偉達CUDA生態(tài)好用,也還是在努力探索其它平臺。
科大訊飛星飛大模型與華為聯(lián)手,堅持軟硬件全棧自主的技術路線。星火大模型訓練與推理全部跑在華為910B/910C全國產萬卡集群“飛星一號”上;二期“飛星二號”預計2025年內交付,可支撐萬億參數(shù)模型持續(xù)訓練。
星火大模型研發(fā)團隊由于技術路線特殊,適配需要花費極大精力,華為也要派很多人一起維護開發(fā)GPU運行,非常艱苦。經(jīng)過幾年努力,目前星火大模型性能已經(jīng)追趕上來了,多種垂類模型與中石油、中海油等大國企應用合作,有特殊的戰(zhàn)略價值,生態(tài)會不斷壯大。
上市公司寒武紀的MLU(MachineLearningUnit)云端智能芯片,其實就是GPU,目前取得了僅次于昇騰系列的應用成績。寒武紀思元590能支撐DeepSeek-R1671B、Llama-3、Qwen-3等主流開源大模型的千卡級訓練,實測算力密度達到A100的80%。思元690傳有中芯國際預留先進芯片產能。寒武紀的“硬件-軟件-生態(tài)”體系已經(jīng)初步成型,與國內主流大模型開發(fā)商合作,目標是2025-2026年形成訓練推理全覆蓋的國產算力矩陣。技術前景支撐了寒武紀2800億的市值,維持了超過半年,并非一般快速見頂?shù)念}材炒作,2025年一季度轉為盈利。
近期,國產大模型開發(fā)勢頭很好。DeepSeek在2025年初突破以后,開源了幾項關鍵技術,推動了行業(yè)大發(fā)展。目前阿里Qwen系列、KimiK2等國產大模型在開源榜單上成績很好,引發(fā)了全球關注。字節(jié)、騰訊等大企業(yè)對大模型也有很高投入,應用場景豐富,實力迅速增長。
國產AI軟硬件生態(tài)與半年前相比,都可以說完全兩樣了,實力暴漲,各類突破層出不窮。生態(tài)有了,技術信心也起來了,對于美國AI封禁并沒有那么在乎了。
這一切,是以前完全不敢想的,大發(fā)展的動力絕對是美國芯片制裁。芯片業(yè)國產替代、生態(tài)建設已經(jīng)進入繁榮期。而GPU由于技術復雜,應用場景多,能想的系統(tǒng)級辦法也多,對于EUV光刻機的依賴并不嚴重,因此CM384可以追上NVL72的總算力。多家國產GPU各有絕活,又是IT互聯(lián)網(wǎng)公司資本投入的重點有真金白銀,屬于較為活躍的芯片創(chuàng)新領域。
美國的制裁現(xiàn)在很微妙,全球業(yè)界其實也已有了判斷,愿意與中國搞好關系。連美國政府自己都明白,中國已經(jīng)熬過了芯片制裁,國產GPU芯片的巨大市場需求都出現(xiàn)了。而國產大模型與美國差距顯著縮小,幾家公司都至少有技術跟隨能力。從限制中國芯片與人工智能技術發(fā)展的角度來看,美國制裁已經(jīng)失敗了,中國取得了長足的進步,沒法限制了。
2018年美國對中國發(fā)動貿易戰(zhàn)以來,已經(jīng)可以得出結論:美國科技制裁,對我國科技發(fā)展正面作用極大;芯片產業(yè)出現(xiàn)了發(fā)展奇跡,連最尖端的GPU芯片都有了中國生態(tài)。
而H20的解禁,說明美國內部承認中國AI領域的軟硬件自主發(fā)展成果,認識到了制裁的負面作用。美國方面已經(jīng)調整目標,不再堅持徹底封殺中國的目標,而是改為“占領全球AI市場”。
這其實就是意識到,中國是競爭對手,市場需要去競爭。黃仁勛在中國、中東等地的商業(yè)活動,對美國政府的全球AI戰(zhàn)略很有幫助,因此話語權上升,H20解禁也在情理之中。
美國政府的態(tài)度變化,說明了中美芯片斗爭已經(jīng)進入了新的階段。美國政府愿意用稍微正常一點的市場邏輯來看問題了,不再一味封殺、愚蠢地讓出寶貴市場,而是希望用H20來搶中國企業(yè)的市場份額。
至于H20解禁是否會損害國產芯片的市場前景,看了前面的技術分析就能明白,華為CloudMatrix384這種能與英偉達最先進服務器對標的產品,遠超H20的技術指標,不在一個層面競爭。H20能夠補充中國的大模型推理算力、垂直模型訓練算力,有利于大模型應用推廣,解禁也不是壞事。
在更為廣闊的AI訓練與推理應用市場,國產GPU市場需求隨著自主生態(tài)的逐漸完善,必然有高速增長。如果美國為了破壞中國市場生態(tài),又解禁性能更強的GPU,那么中美科技斗爭的勝負趨勢就更為明顯了。
本文系觀察者網(wǎng)獨家稿件,文章內容純屬作者個人觀點,不代表平臺觀點,未經(jīng)授權,不得轉載,否則將追究法律責任。關注觀察者網(wǎng)微信guanchacn,每日閱讀趣味文章。
人人必讀的《老子是鳳凰男》,讓人心水的情境,追書的動力有了!
《老子是鳳凰男》作者:蘇南清風 《老子是鳳凰男》作者:蘇南清風