生成式AI的問世讓整體社會對于算力的需求有了質的飛躍,尤其是當生成式快速發(fā)展的當下,AI已經從大模型走向了智能體、具身智能的時代。每個企業(yè)、每個人都有了更多對于智算的需求。
一方面,AI的影響下,原有算力正在經歷不斷被顛覆的過程;另一方面,AI的賦能下,對于底層算力基礎設施也帶來智能化改造的機會。
算力需求正在發(fā)生變化
據IDC數據顯示,2024年全球人工智能服務器市場規(guī)模為1251億美元,2025年將增至1587億美元,2028年有望達到2227億美元,其中生成式人工智能服務器占比將從2025年的29.6%提升至2028年的37.7%。
聚焦中國算力市場,IDC數據顯示,2025年,中國智能算力規(guī)模將達到1037.3EFLOPS,預計2028年將達到2781.9EFLOPS;中國通用算力規(guī)模將達到85.8EFLOPS,預計2028年將達到140.1EFLOPS,對此,IDC中國副總裁周震剛曾告訴筆者,從增加趨勢上分析,2023-2028年,中國智能算力五年年復合增長率預計將達到46.2%,通用算力預計將達到18.8%,“從數據上不難看出,目前,用戶對于算力的需求,絕大部分的增量將產生在智能算力方面?!敝苷饎倧娬{。
在模型參數不斷增加的情況下,單集群訓練大模型已經略顯“吃力”,跨域、跨集群混訓大模型已經成為當下訓練大模型的趨勢。比如,日前,上海人工智能實驗室發(fā)布DeepLink超大規(guī)??缬蚧煊柤夹g方案,支持千公里多智算中心跨域長穩(wěn)混訓千億參數大模型,例如跨越1500公里連接上海和濟南之間的智算中心,實現北京、上海與貴州等多地智算中心互聯和大模型混訓等。
而實現跨域混訓模型產品一方面是模型訓練技術上的提升,另一方面也離不開近年來算網的建設,國家數據局局長劉烈宏曾在2024中國國際大數據產業(yè)博覽會上表示,截至2024年6月底,“東數西算”八大國家樞紐節(jié)點直接投資超過435億元,拉動投資超過2000億元,機架總規(guī)模超過195萬架,整體上架率達63%左右?!皷|數西算”工程正式啟動以來,東西部樞紐節(jié)點間網絡時延已基本滿足20毫秒要求,新建數據中心PUE(電能利用效率)最低降至1.04,東部算力需求有序向西部遷移,算力集聚效應初步顯現。
不過在跨集群、跨域模型混訓的過程中,企業(yè)也面臨很多問題,對此,并行科技AI云事業(yè)部總經理趙鴻冰告訴筆者,跨集群混訓大多時候就意味著需要鏈接不同的算力服務供應商,供應商之間的協議接口如何打通是技術層面首當其沖要面對的問題,“這就考驗了算力服務商的服務能力。”趙鴻冰強調。
除了技術層面的問題之外,商業(yè)利益的問題也是不容忽視的一個挑戰(zhàn)。原先商業(yè)模式下,用戶絕大部分模型訓練處于一個算力服務商內,即便算力不夠,外接部分其余算力服務商,在算力計價方面也好操作,但是混合之后,雖然用戶不知道,也不需要知道自己用了哪家服務商的算力,在用戶側沒有感受,但在服務商這一側,如何做好算力調度平臺內的商業(yè)利益劃分,在趙鴻冰看來,也是當前需要面對的一個現實問題。
另一方面,伴隨著AI大模型的發(fā)展,用戶對于算力的需求從原先的單純的訓練需求,逐漸轉向問訓練、推理算力都有,“而且從目前需求上來看,在DeepSeek問世之后,推理算力的需求越來越大?!壁w鴻冰進一步指出,“總體而言,算力行業(yè)正從‘規(guī)模驅動’轉向‘效率驅動’,技術門檻降低將吸引更多參與者,形成多元化競爭格局?!?/p>
無獨有偶,清程極智CEO湯雄超也對筆者表示,通過本屆WAIC可以看出,AI技術的主要方向,已經成預訓練轉向了后訓練及推理階段,“算力需求也正在從訓練側,轉向推理側?!睖鄢赋觥?/p>
這種需求的改變也推動了算力服務模式的改變,對此,趙鴻冰告訴鈦媒體APP,算力服務模式正在從傳統(tǒng)IaaS(基礎設施即服務)向MaaS(模型即服務)升級,在這個過程中,從業(yè)務場景方面來看,將會更面向行業(yè)落地,云廠商通過預置DeepSeek優(yōu)化模型提供端到端解決方案,降低客戶算力采購復雜度。
而在此次WAIC期間,也有不少云服務商推出了一些新的算力服務理念,以浪潮云為例,浪潮云從過去以集中提供通用算力為主,到現在適應客戶對算力服務小型化、專業(yè)化、分散化的需求,建設了人工智能工廠,為客戶提供個性化、定制化的算力服務。
據展區(qū)工作人員介紹,浪潮人工智能工廠作為新型人工智能基礎設施,是國內首個面向行業(yè)場景,具備工業(yè)化、標準化、規(guī)模化生產能力的人工智能生產流水線,重點解決人工智能全生命周期的標準化、自動化和規(guī)?;a問題。“目前,浪潮人工智能工廠已沉淀61道工序、113套工具,并基于工匠中心持續(xù)提升生產能力與水平,同時依托工廠化運營模式,廣泛匯聚人工智能產業(yè)鏈上下游生態(tài),打造產業(yè)核心載體與創(chuàng)新引擎?!痹撁ぷ魅藛T對筆者表示。
算網建設是關鍵
在算力需求變化的過程中,企業(yè)在對算力的認知也存在了一些偏差與誤區(qū)。對此,趙鴻冰告訴筆者,原先,企業(yè)自建算力基礎設施可能是一個比較“劃算”的應用算力的形態(tài),但這種模式在現階段存在了一定弊端。“首先,企業(yè)選擇自建算力基礎設施的過程中,一次性投入很大,尤其是要能支撐起當前AI算力需求的硬件投入是十分龐大的,且周期很長,不能滿足企業(yè)短時間的業(yè)務需求,”趙鴻冰進一步指出,“其次,對于大多數企業(yè)而言,業(yè)務規(guī)模沒有達到那么大量的需求,建設好的機房利用率很低,有一些甚至不足30%,這對于企業(yè)而言,相當于‘花大錢,半小事’,十分不劃算?!?/p>
除此之外,湯雄超也告訴筆者,AI發(fā)展火爆的當下,絕大多數企業(yè)管理對算力基礎設施有了一定了解,但有不少管理者過于注重字面上性能的指標,缺少對于場景深入的認知,“例如,這個場景下,算力是偶爾被使用,還是需要頻繁調??;是偏探索型的業(yè)務,還是企業(yè)日常核心業(yè)務....企業(yè)需要針對不同的場景選擇合適的算力,才能將‘好鋼用在刀刃上’?!睖鄢赋觥?/p>
針對此,趙鴻冰與湯雄超都認為,企業(yè)需要平衡好可用性與價錢之間的關系,尋找到適合企業(yè)長久發(fā)展的,最具性價比的算力發(fā)展方式。
另一方面,趙鴻冰還補充到,目前選擇算力平臺負載業(yè)務的企業(yè)越來越多,這也對算力服務商構建算力調度平臺提出了更高的要求,“這些要求中,最為緊要的是高性能通信的要求,只有通信的性能足夠強,才能真正實現良好的調度效果?!壁w鴻冰強調。
算力網絡作為數字化時代的重要基礎設施,其建設和發(fā)展對于推動各行業(yè)的創(chuàng)新和發(fā)展具有至關重要的意義。算力網絡正在往AI化、分布化方向演進。這個過程中,多節(jié)點、多模式、廣分布的算力網絡將是未來算力網絡發(fā)展的終極形態(tài)。在這種算力模式下,不同的計算存儲資源池承擔不同的計算任務并相互協同,極大提升算力網絡的性能。
當前隨著AI技術的發(fā)展,傳統(tǒng)的算力網絡已經發(fā)展成為AI算力網絡。而算力網絡隨著建設進度與使用條件的演進,逐漸發(fā)展成為三種算力網絡:單集群算力網絡、多鏈路互聯多集群算力網絡、分布式廣域多集群算力網絡。單集群算力網絡當前已經有諸多成功建設案例,并且已經是諸多基礎設施供應商的大部分算力網絡。
然而,隨著AI等技術需求的發(fā)展,單集群的算力網絡已經無法滿足AI訓練的算力網絡需求,分布式算力網絡開始逐漸引起重視。分布式多集群算力網絡分為兩個階段,其一是Meta提出的基于多鏈路互聯適合于同園區(qū)建設的分布式多鏈路互聯多集群算力網絡,其二是當前諸多廠商提出的跨廣域網的多集群算力網絡。在這種發(fā)展模式下,RoCE網絡(RDMAoverConvergedEthernet,一種基于以太網的高性能通信網絡)、UEC(?超以太網聯盟UniversalEthernetConsortium技術)等已經成為必不可少的技術需求。
除了網絡之外,湯雄超告訴筆者,智算行業(yè)發(fā)展還離不開算力平臺的優(yōu)化,“通過軟硬件協同優(yōu)化,能更好地激發(fā)出以GPU為代表的硬件設備的能力,從而以更低成本的芯片,發(fā)揮出更接近,甚至超過國際一流芯片水平的能力?!睖鄢瑥娬{。
綠色算力如何實現?
算力需求的增加,在帶來了算網建設需求之外,也為數據中心的節(jié)能減排提出了更高的要求。
根據IDC測算,預計到2027年,AI數據中心容量的復合年增長率(CAGR)將達到40.5%,與此同時AI數據中心的能源消耗預計將以44.7%的CAGR增長,到2027年達到146.2太瓦時(TWh)。
面對如此之高的能耗與國家層面的碳中和目標,數據中心的綠色化已經出發(fā)“在路上”多年。從技術角度出發(fā),一方面,新的冷媒的應用成為了數據中心降低能耗的主要手段,比如液冷技術就在近幾年在數據中心內大火;
另一方面,數據中心選址也成為降低能耗的關鍵,比如華為就選擇“挖山”建設數據中心,將機房放在山體內,以降低供冷消耗,而海蘭信則選擇將數據中心建設在水中,通過海水帶走多余的熱量,一方面能有效降低數據中心能耗,另一方面還能回收相對“熱品位”較高的海水的熱量,余熱回收會進行副業(yè)的賦能與發(fā)展。
上海海蘭云科技有限公司總經理蘇洋在WAIC期間與筆者分享了海蘭信在海底數據中心方面建設的經驗與心得。蘇洋表示,將數據中心部署在海底,一方面可以有效的降低數據中心PUE(能源使用效率),另一方面,還能降低數據中心的故障率。
在節(jié)能減排,降低PUE方面,據了解,海蘭信位于海南陵水的項目,運行PUE低至1.076,較傳統(tǒng)陸地數據中心(平均PUE1.5)節(jié)能30%-40%,水資源消耗近乎為零。除此之外,蘇洋還向筆者介紹了水下數據中心+海上風電的IDC模式。據了解,海蘭信推動的“海上風電+海底數據中心”示范工程,2025年在上海臨港開工,預計9月投運,投產后綠電直供率達97%,建設成本降低30%。
不僅于此,IDC服務商還可以通過對散熱后的海水進行余熱回收,結合周邊養(yǎng)魚業(yè)、熱能發(fā)電等產業(yè),形成完整的產業(yè)閉環(huán),助力相關產業(yè)的發(fā)展。
在降低故障率方面,有數據統(tǒng)計顯示,數據中心內部有超過一半的故障是由運維人員操作不當導致的,而位于水下的數據中心日常沒有人員進入,通過抗腐蝕密封的系統(tǒng)與冗余的設計,保障設備在深海高壓環(huán)境下的穩(wěn)定性。
除了在冷媒與建設位置兩個方面實現數據中心的節(jié)能減排之外,作為AI底層基礎設施支撐的數據中心,也享受到了AI的“反哺”。數據中心也步入了智能化轉型的新階段。對此,劉洋告訴筆者,目前海蘭信已經從多元電力融合/調度、AI運維、海上低空無人機配送備件、無人機監(jiān)測IDC運行情況等方面著手,力圖打造一個完全無人化的“黑燈”數據中心。
隨著AI大模型向智能體躍遷,算力需求也必將進一步快速增長,進而推動算力行業(yè)從“規(guī)模驅動”向“效率驅動”加速轉型。此時,算網建設與綠色算力成為行業(yè)破局關鍵。(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達)
9月11日-14日由鈦媒體集團、ITValue聯合主辦的2025ITValueSummit數字價值年會將以「AI落地場景真相」為主題,與新老朋友重聚三亞,并在全年圍繞1場年度演講,5大ToB明星IP持續(xù)內容“造血”,設計N個場景的想象空間,打造1本《AI落地場景指南》,一同解決AI實際落地應用背后的“10大問題”,探索數字經濟時代的變革和機遇。(點擊進入了解更多大會報名信息)
評!加入創(chuàng)新場景50榜單評選2025年度「創(chuàng)新場景TOP50」榜單評選征集啟動申報日期:即日起~8月22日止公開投票及專家評審:2025年8月23日起~8月31日止申報鏈接:https://m.tmtpost.com/post/cj50(請使用PC端申報,暫不支持手機端)
延伸閱讀:與 綠色化和算網建設(是關鍵丨)To:B產業(yè)91%觀察 的相關文章