系統(tǒng)性思維,一直都是中國(guó)產(chǎn)業(yè)從后發(fā)地位邁向先進(jìn)水平的寶貴經(jīng)驗(yàn),如今這一幕也正在AI領(lǐng)域發(fā)生。近日,10家國(guó)產(chǎn)大模型、AI芯片和算力加速企業(yè)攜手成立“模芯生態(tài)創(chuàng)新聯(lián)盟”,開(kāi)始探索從大模型開(kāi)發(fā)階段就去適配國(guó)產(chǎn)AI芯片,為國(guó)產(chǎn)芯片產(chǎn)業(yè)協(xié)同打開(kāi)了新思路。與此同時(shí),上海企業(yè)在聯(lián)盟中占據(jù)半壁江山的現(xiàn)象,也正是上海高科技產(chǎn)業(yè)一向重視軟硬結(jié)合,產(chǎn)業(yè)鏈一體化完備程度的厚積薄發(fā)。
(文/觀察者網(wǎng)張廣凱)
沐曦陳維良、天數(shù)智芯蓋魯江、燧原趙立東、壁仞張文,四家國(guó)產(chǎn)算力芯片領(lǐng)軍企業(yè)的創(chuàng)始人同臺(tái)對(duì)話,即使不是第一次,也是非常罕見(jiàn)的一幕。
更耐人尋味的是,這一幕出現(xiàn)在大模型企業(yè)階躍星辰的發(fā)布會(huì)上。
7月25日,作為今年世界人工智能大會(huì)的一部分,階躍星辰在上海發(fā)布了新一代SOTA級(jí)的多模態(tài)推理大模型Step3。
作為著名的“多模態(tài)卷王”,如果說(shuō)Step3本身的模型能力已經(jīng)不會(huì)太讓人意外,那么這次發(fā)布會(huì)上更大的驚喜,來(lái)自于其對(duì)國(guó)產(chǎn)芯片的強(qiáng)大適配能力——據(jù)介紹,Step3在國(guó)產(chǎn)芯片上的推理效率最高可達(dá)DeepSeek-R1的300%。
同日,階躍星辰聯(lián)合近10家芯片及基礎(chǔ)設(shè)施廠商發(fā)起“模芯生態(tài)創(chuàng)新聯(lián)盟”,首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數(shù)智芯、無(wú)問(wèn)芯穹、寒武紀(jì)、摩爾線程、硅基流動(dòng)等。
階躍星辰的名字來(lái)自數(shù)學(xué)中的“階躍函數(shù)”,這個(gè)函數(shù)常用來(lái)描述從0到1的突然跳變。當(dāng)英偉達(dá)H20都面臨“斷供”風(fēng)險(xiǎn),國(guó)產(chǎn)算力今年已經(jīng)成為大模型企業(yè)的必選項(xiàng)。這個(gè)趨勢(shì)當(dāng)然不僅僅歸功于階躍星辰,但國(guó)產(chǎn)模芯生態(tài)卻如“階躍函數(shù)”一樣正在快速躍遷。
當(dāng)模型和芯片變成一個(gè)系統(tǒng)
自從今年初DeepSeek爆火出圈之后,人們已經(jīng)習(xí)慣了用“DeepSeek時(shí)刻”來(lái)形容中國(guó)大模型產(chǎn)業(yè)的進(jìn)步。但是屬于DeepSeek自己的下一個(gè)“DeepSeek時(shí)刻”,卻遲遲沒(méi)有到來(lái)。
早在2月份,就有消息稱DeepSeek計(jì)劃于5月發(fā)布下一代推理模型R2,甚至有可能提前。但截至目前,R2仍然未能亮相。知名科技媒體TheInformation曾指出,英偉達(dá)H20芯片此前的禁售風(fēng)波,可能是DeepSeek計(jì)劃跳票的重要原因。
DeepSeek此前的V3和R1模型,均是基于英偉達(dá)芯片訓(xùn)練。昔日還以幻方量化知名的梁文鋒曾在采訪中承認(rèn),他在2021年就已經(jīng)囤積了萬(wàn)張英偉達(dá)顯卡。直到2023年,幻方擁有的英偉達(dá)顯卡都超過(guò)國(guó)內(nèi)很多頭部大廠,這是DeepSeek成功的物理前提。
如今英偉達(dá)顯卡屢屢出現(xiàn)斷供風(fēng)險(xiǎn),影響的不是僅僅DeepSeek自身的模型訓(xùn)練,也讓下游那些并非財(cái)大氣粗的用戶在部署時(shí)遇到麻煩。隨著華為昇騰等國(guó)產(chǎn)芯片的性價(jià)比逐步超越H20,越來(lái)越多的用戶和算力廠商開(kāi)始轉(zhuǎn)向國(guó)產(chǎn)芯片。
但DeepSeekV3和R1的優(yōu)化原本是針對(duì)英偉達(dá)H800這樣的高端芯片,用在國(guó)產(chǎn)芯片時(shí)仍然需要大量的適配工作。算力加速平臺(tái)硅基流動(dòng)的創(chuàng)始人袁進(jìn)輝曾透露,為了在華為昇騰芯片上適配DeepSeek,其團(tuán)隊(duì)與華為工程師整個(gè)春節(jié)假期都沒(méi)有休息。
現(xiàn)在,階躍星辰想從根本上解決這個(gè)難題。
在Step3的發(fā)布會(huì)上,階躍星辰創(chuàng)始人、CEO姜大昕展示了兩組數(shù)據(jù):
在國(guó)產(chǎn)芯片上,Step3的推理效率最高可達(dá)DeepSeek-R1的300%;而即使在基于NVIDIAHopper架構(gòu)的芯片進(jìn)行分布式推理時(shí),實(shí)測(cè)Step3相較于DeepSeek-R1的吞吐量提升了超過(guò)70%。
這樣的效率提升是如何做到的?
“過(guò)去,產(chǎn)業(yè)把開(kāi)發(fā)順序搞反了?!彪A躍星辰聯(lián)合創(chuàng)始人、副總裁朱亦博對(duì)觀察者網(wǎng)解釋說(shuō),一款芯片的開(kāi)發(fā)周期需要兩年以上,而如今模型迭代的速度只有半年到一年,如果讓芯片廠商去適配模型,必然是低效的,可能等到適配做好了,模型早就迭代了。
觀察者網(wǎng)了解到,隨著大模型算法創(chuàng)新層出不窮,業(yè)內(nèi)對(duì)于其硬件適配性早就不乏詬病,甚至有“算法搞創(chuàng)新,infra擦屁股”的說(shuō)法。
而階躍星辰選擇了在模型開(kāi)發(fā)階段,就主動(dòng)去服務(wù)于國(guó)產(chǎn)芯片的特性。
朱亦博舉例說(shuō),目前國(guó)產(chǎn)芯片的制程工藝、HBM(高帶寬內(nèi)存)等性能還相對(duì)落后,導(dǎo)致在算法設(shè)計(jì)上需要去做一些調(diào)整。
階躍星辰展示的圖片顯示,在算術(shù)強(qiáng)度(Arithmeticintensity)特性上,DeepSeekV3更適配于H800芯片,阿里Qwen3更偏向H20,而Step3則與昇騰910B更加接近。
這得益于今年初階躍星辰發(fā)布的一種新型注意力機(jī)制架構(gòu)——多矩陣分解注意力(MFA)。在當(dāng)時(shí)DeepSeek的光芒下,這個(gè)成果并未廣泛“出圈”,但是相較于DeepSeek采用的多頭注意力機(jī)制(MLA),MFA能夠把推理過(guò)程中的鍵值緩存(KVCache)用量大幅降低93.7%,對(duì)國(guó)產(chǎn)芯片更加友好。
換句話說(shuō),階躍星辰主動(dòng)跳出了一家單純的大模型企業(yè)視角,而是把模型和硬件視為相互協(xié)同的系統(tǒng)。沐曦創(chuàng)始人、董事長(zhǎng)兼總經(jīng)理陳維良直言,“階躍星辰對(duì)于國(guó)產(chǎn)芯片的了解深度,已經(jīng)不亞于芯片企業(yè)本身”
下面這張圖更加直觀地展示了階躍星辰這種思維方式的成果:在昇騰910B上,Step3的解碼效率甚至超過(guò)了華為自家的盤(pán)古ProMoE模型,這還是在盤(pán)古ProMoE實(shí)際激活參數(shù)不到Step3一半的情況下。
如今,階躍星辰與諸多硬件廠商成立“模芯聯(lián)盟”,意味著過(guò)去技術(shù)層面的系統(tǒng)思維,有望走向更深度的戰(zhàn)略協(xié)同層面。
朱亦博對(duì)觀察者網(wǎng)介紹,這個(gè)聯(lián)盟的初步目標(biāo),是將各自的產(chǎn)品開(kāi)發(fā)進(jìn)度相互同步,并希望在此基礎(chǔ)上建立長(zhǎng)期信任以及合作關(guān)系,“也許未來(lái)新一代芯片上市前,我們就可以比較早地獲取它的一些設(shè)計(jì)。”
這勢(shì)必會(huì)給階躍星辰的未來(lái)模型研發(fā)帶來(lái)獨(dú)特優(yōu)勢(shì),而與此同時(shí),姜大昕也向觀察者網(wǎng)表示,歡迎更多國(guó)內(nèi)大模型企業(yè)加入聯(lián)盟。
國(guó)產(chǎn)芯片訓(xùn)練仍難突破
盡管以階躍星辰為代表的眾多國(guó)產(chǎn)大模型公司都開(kāi)始重視對(duì)國(guó)產(chǎn)芯片的適配,但到目前為止,主要的適配工作都發(fā)生在推理環(huán)節(jié),而基于國(guó)產(chǎn)芯片的訓(xùn)練仍然是行業(yè)難題。
困難同樣來(lái)自軟硬兩個(gè)維度。
大模型的“大”主要體現(xiàn)在訓(xùn)練階段數(shù)據(jù)和參數(shù)量的龐大,而訓(xùn)練完成的大模型,在推理階段并不需要激活所有參數(shù)量,因此對(duì)算力消耗更小。
當(dāng)前,美國(guó)大模型公司在訓(xùn)練環(huán)節(jié)使用的芯片集群規(guī)模已經(jīng)達(dá)到10萬(wàn)卡,而國(guó)內(nèi)大模型往往使用以英偉達(dá)芯片為主的萬(wàn)卡集群。
目前,明確使用全國(guó)產(chǎn)算力的芯片集群是科大訊飛與華為共建的“飛星二號(hào)”,能夠達(dá)到萬(wàn)卡級(jí)別,今年剛剛走到首批算力交付的階段。而且考慮到華為單卡算力的劣勢(shì),“飛星二號(hào)”在總算力上仍然難以同英偉達(dá)集群媲美。
本次人工智能大會(huì)上,華為也首次展出了384張芯片集成的超節(jié)點(diǎn)機(jī)柜,在算力上超過(guò)英偉達(dá)的NVL72,但考慮到芯片數(shù)量和光模塊的大量使用,其功耗和穩(wěn)定性仍然有待檢驗(yàn)。
而其它國(guó)產(chǎn)芯片在集群規(guī)模上也存在明顯差距。在無(wú)問(wèn)芯穹與上海算法創(chuàng)新研究院的合作中,雙方成功基于3000卡沐曦國(guó)產(chǎn)GPU集群,穩(wěn)定支撐百億參數(shù)大模型訓(xùn)練長(zhǎng)達(dá)600小時(shí)不間斷,這已經(jīng)是國(guó)產(chǎn)算力模型訓(xùn)練的記錄。
除了芯片集群的困難,大模型企業(yè)想要在國(guó)產(chǎn)芯片上進(jìn)行訓(xùn)練,也需要根據(jù)芯片不同的架構(gòu)去重新構(gòu)建底層工具鏈,其難度同樣巨大。
需要承認(rèn)的是,當(dāng)下國(guó)產(chǎn)大模型百花齊放,一定程度上也是建立在英偉達(dá)CUDA生態(tài)提供了成熟的工具鏈,而工具鏈的開(kāi)發(fā)人才由于要掌握硬件知識(shí),往往比大模型的人才更加稀缺。
因此,國(guó)產(chǎn)芯片在推理側(cè)的進(jìn)展令人欣喜之余,我們也仍要正視同英偉達(dá)生態(tài)的差距。
下一個(gè)圣杯:多模態(tài)
但是樂(lè)觀地說(shuō),當(dāng)下大模型的技術(shù)演進(jìn)遠(yuǎn)遠(yuǎn)沒(méi)有結(jié)束,這也意味著,如果能夠在新技術(shù)范式上占得先機(jī),基于國(guó)產(chǎn)芯片的大模型開(kāi)發(fā)生態(tài)仍有彎道超車(chē)空間。
多模態(tài)就是下一個(gè)機(jī)會(huì)所在。
盡管多模態(tài)模型落地已經(jīng)如火如荼,但業(yè)界共識(shí)認(rèn)為,屬于多模態(tài)的“GPT-4時(shí)刻”尚未真正到來(lái)。也就是說(shuō),如今多模態(tài)的推理模型尚不成熟,理解生成一體化尚未實(shí)現(xiàn),世界模型也還較為遙遠(yuǎn),這都意味著,其基礎(chǔ)架構(gòu)仍有很大創(chuàng)新空間,國(guó)產(chǎn)芯片對(duì)模型的適配也可以從更早期階段起步,避免如語(yǔ)言模型一樣的英偉達(dá)一家獨(dú)大。
而中國(guó)多模態(tài)應(yīng)用生態(tài)的繁榮,也為相關(guān)企業(yè)提供了充足彈藥。
例如,階躍星辰日前首次公布了明確的收入指引——預(yù)計(jì)今年全年?duì)I收達(dá)到10億元。
“AI六小龍”公司此前都沒(méi)有明確公布過(guò)自己的經(jīng)營(yíng)狀況,可以作為對(duì)比的是,有媒體報(bào)道智譜2024年的收入約2-3億元,而虧損可能達(dá)到20億元。
這意味著,階躍星辰除了與上游硬件廠商的結(jié)合,在下游用戶的結(jié)合上也有獨(dú)到之處。
其最核心的秘訣自然還是多模態(tài)。
過(guò)去一年中,階躍星辰已經(jīng)發(fā)布了十余款多模態(tài)模型,包括Step系列的基礎(chǔ)模型,以及語(yǔ)音、視覺(jué)理解、圖像編輯、圖像和視頻生成、音樂(lè)等諸多垂直模型。本次WAIC期間,階躍亦升級(jí)了多模態(tài)模型矩陣,包括階躍首個(gè)多模理解生成一體化模型Step3oVision,第二代端到端語(yǔ)音大模型Step-Audio2。
業(yè)內(nèi)普遍認(rèn)為,相比于語(yǔ)言模型的不斷刷榜,多模態(tài)正在成為當(dāng)下大模型和Agent產(chǎn)品落地需求最大和最有利可圖的賽道。這讓“六小龍”中一直較為低調(diào)的階躍星辰,悄然在商業(yè)上開(kāi)始爆發(fā)。
階躍星辰副總裁李璟對(duì)觀察者網(wǎng)直言,“多模態(tài)模型的優(yōu)勢(shì)往往不體現(xiàn)在榜單上,而是體現(xiàn)在客戶的實(shí)際測(cè)試?yán)锩?,這個(gè)可能更有說(shuō)服力?!?/p>
例如,階躍星辰展示了在一張反光嚴(yán)重的菜單照片上準(zhǔn)確識(shí)別菜品價(jià)格的能力——圖文識(shí)別算不上新鮮,但在復(fù)雜現(xiàn)實(shí)環(huán)境里的可用性,才是應(yīng)用落地的關(guān)鍵。
據(jù)介紹,階躍星辰的智能終端Agent目前頭部客戶效應(yīng)顯著:已覆蓋國(guó)內(nèi)超過(guò)一半頭部國(guó)產(chǎn)手機(jī)廠商,深度合作打造手機(jī)Agent體驗(yàn);聯(lián)合吉利推出AI智能座艙,成功實(shí)現(xiàn)行業(yè)內(nèi)端到端語(yǔ)音大模型首次量產(chǎn)上車(chē)。另一方面,階躍星辰積極拓展垂直行業(yè)的應(yīng)用,與金融財(cái)經(jīng)、內(nèi)容創(chuàng)作、零售等領(lǐng)域的行業(yè)頭部公司深度合作,共同打造面向C端的場(chǎng)景化應(yīng)用體驗(yàn)。
多模態(tài)模型的快速應(yīng)用落地,除了對(duì)大模型企業(yè)商業(yè)閉環(huán)意義重大,也有助于收集更多數(shù)據(jù),形成飛輪驅(qū)動(dòng)模型和硬件的進(jìn)步。
天數(shù)智芯董事長(zhǎng)兼CEO蓋魯江指出,“從芯片到整機(jī)廠商、模型廠商,再到最終應(yīng)用場(chǎng)景,這4個(gè)環(huán)節(jié)都是產(chǎn)業(yè)鏈的重要組成部分,如果能夠通過(guò)聯(lián)盟建立統(tǒng)一標(biāo)準(zhǔn),將會(huì)省去大量的適配成本。”
上海為何托起半壁江山?
最后值得注意的是,在上述模芯聯(lián)盟中,來(lái)自上海的企業(yè)占據(jù)了半壁江山。
作為國(guó)內(nèi)工業(yè)化最早、最完整的城市,上海在互聯(lián)網(wǎng)時(shí)代一度顯得低調(diào),但隨著人工智能爆發(fā),上海的產(chǎn)業(yè)地位正在不斷提升。
其實(shí),上海人工智能產(chǎn)業(yè)的獨(dú)特優(yōu)勢(shì),正藏在“軟硬協(xié)同”四個(gè)字之中。
互聯(lián)網(wǎng)時(shí)代,企業(yè)崇尚輕資產(chǎn)的快速靈活,但在人工智能時(shí)代,硬件能力的提升卻沒(méi)有捷徑可走。上海坐擁中芯國(guó)際和華虹等國(guó)內(nèi)主要晶圓廠,HBM所需的先進(jìn)封裝產(chǎn)能也多位于長(zhǎng)三角,這都為GPU企業(yè)提供了便利環(huán)境。
而上海為應(yīng)用生態(tài)提供的服務(wù)也走在全國(guó)前列。無(wú)問(wèn)芯穹在本屆人工智能大會(huì)期間指出,其服務(wù)的全球最大人工智能孵化器——上海模速空間,日均Token調(diào)用量已成功突破100億大關(guān)。
《新華財(cái)經(jīng)》一組數(shù)據(jù)顯示,2024年上海人工智能(含大模型)企業(yè)達(dá)到24733家,較上年增長(zhǎng)5.1%,新增注冊(cè)資本1000萬(wàn)及以上的人工智能企業(yè)有104家。
上海國(guó)有資本也在頻繁參與AI產(chǎn)業(yè)的早期投資。今年3月,上海國(guó)投先導(dǎo)人工智能產(chǎn)業(yè)母基金的首個(gè)直投項(xiàng)目就投向了壁仞科技,據(jù)悉,上海國(guó)投生態(tài)體系也將在近期參與投資階躍星辰的最新一輪融資。
這無(wú)疑是一種更高層面上的系統(tǒng)集成。當(dāng)其他城市還在討論如何“補(bǔ)鏈”時(shí),上海已經(jīng)讓AI成為城市基礎(chǔ)設(shè)施的一部分。
本文系觀察者網(wǎng)獨(dú)家稿件,文章內(nèi)容純屬作者個(gè)人觀點(diǎn),不代表平臺(tái)觀點(diǎn),未經(jīng)授權(quán),不得轉(zhuǎn)載,否則將追究法律責(zé)任。關(guān)注觀察者網(wǎng)微信guanchacn,每日閱讀趣味文章。
動(dòng)漫人物表情怎么畫(huà)?幾款動(dòng)漫人物常用表情畫(huà)法分享
三年毫無(wú)進(jìn)步,歐陽(yáng)娜娜再度出山演戲,依舊只會(huì)瞪眼和“面癱”?
《蒼蘭訣》:王鶴棣演技巔峰?面癱憑什么擔(dān)任大男主!