新智元報道
定慧桃子
【新智元導(dǎo)讀】新一代多模態(tài)推理基模Step3橫空出世了!是專為推理時代打造的最適合應(yīng)用的模型,以最高可達(dá)DeepSeek-R1300%的推理效率擊破行業(yè)天花板。7月31日,Step3將正式開源,問鼎開源最強(qiáng)多模推理模型。
2025年,AI模型到底有多卷?
谷歌和OpenAI從年初開始「打生打死」,發(fā)布會一場接一場,最近OpenAI更是為了和谷歌DeepMind爭奪「IMO金牌第一推理模型」互相撕臉。
閉源模型們神仙打架,開源模型卻是「格局已變」。
開源模型這塊,國內(nèi)已經(jīng)快一枝獨(dú)秀了,DeepSeek、Qwen、StepFun、KimiK2等成為海外討論的焦點(diǎn)。
曾經(jīng)的開源之光Meta的Llama已經(jīng)被人遺忘,逼得扎克伯格顧不得體面瘋狂挖人。
喧囂之后:什么才是真正「好用」的AI模型?
時至今日,整個行業(yè)都意識到,真正的問題是,到底什么樣的模型才能真正服務(wù)于千行百業(yè),而不僅僅是刷新各個Bench的榜單。
遺憾的是,放眼望去,能同時滿足「開源」,又能提供「多模態(tài)能力」,還能「推理」的模型,還真的數(shù)不出幾個,更別說好用了。
2025WAIC大會上,階躍星辰的新一代主力基座模型Step3,帶來了意想不到的驚喜。
Step3:開源多模態(tài)推理新標(biāo)桿
新一代旗艦基模Step3的發(fā)布,標(biāo)志著階躍多模態(tài)大模型又一個新里程碑。
它采用了原創(chuàng)MFA架構(gòu),通過模型和系統(tǒng)聯(lián)合創(chuàng)新,實(shí)現(xiàn)了行業(yè)領(lǐng)先的推理效率、極致性價比。
要說Step3的核心亮點(diǎn),可以概括為四個字——「多開好省」。
具體來說,多代表「多模態(tài)」,開代表「開源」,好代表「強(qiáng)智能」,省代表「低成本」。
接下來,就我們一一拆解,這四大維度背后代表的真正含義。
作為AI界「多模態(tài)卷王」,階躍首發(fā)的Step3綜合實(shí)力究竟有多強(qiáng)?
Step3在MMMU、MathVision、SimpleVQA、AIME2025、LiveCodeBench(2024.08-2025.05)等榜單上直接拿下了開源多模態(tài)推理模型的SOTA成績。
榜單成績刷的再高,不如真正拉出來遛一遛。
能看會道,雙商太高了
現(xiàn)在,直接進(jìn)入階躍AI的網(wǎng)頁版和手機(jī)版,即可開啟Step3的最新體驗(yàn)。
傳送門:https://www.stepfun.com/chats/new
在視覺推理實(shí)測中,Step3能夠?qū)D片中的細(xì)節(jié),充分理解到位。
比如,扔給階躍AI一張貓咪圖,并問「圖片里有幾只貓」?
Step3思考后給出回復(fù),一眼識別出「一只貓+影子」,并給出了導(dǎo)致視覺錯覺的原因。
再上一個難度測試,當(dāng)你看到如下這張圖后,能否發(fā)現(xiàn)圖片中寫了什么?
別說AI了,眼神不太好的人,硬是盯半天也不一定能看出來。
Step3經(jīng)過長時間推理后,一步一步解讀出圖片中從上至下的字母,并將其組合成「AIMAKELIFEBETTER」的正確答案。
再比如,正在減肥期間的你,想要隨時監(jiān)測食物卡路里,同樣交給Step3就可以了。
上傳一張食物訂單圖,提問「2個人一餐吃了這些,人均攝入多少卡路里」?
不一會兒功夫,Step3就給你算的明明白白。
再來個經(jīng)典視覺難題「吉娃娃還是松餅」,堪稱AI視覺領(lǐng)域的「圖靈測試」,曾難倒了不少大模型。
那么,Step3的表現(xiàn)又如何呢?
令人驚喜的是,經(jīng)過縝密的思考之后,Step3準(zhǔn)確列出了圖中所有吉娃娃的所在位置。
再比如室友小聚,需要AA制但又懶得分賬時,可以把相關(guān)圖片上傳給Step3。
一張聊天截圖,一張購物單,問下每個人均攤多少?
在仔細(xì)推敲之后,Step3針對5個人的花費(fèi)給出了詳細(xì)的解答。
多開好省,最適合應(yīng)用
更重要的是,這充分體現(xiàn)了Step3「多開好省」的核心亮點(diǎn)。
這四大維度,對于用戶來說至關(guān)重要。
人們在選擇模型時,這一過程就好比「木桶理論」,不僅要關(guān)注模型的單一優(yōu)勢,而是要綜合考量多維度的整體表現(xiàn)。
作為階躍首個全尺寸、原生多模態(tài)推理模型,Step3非常適合落地應(yīng)用。
一直以來,數(shù)學(xué)、代碼成為業(yè)界考驗(yàn)?zāi)P湍芰Φ闹匾较?,但在?shí)際應(yīng)用中,多模態(tài)才是真正的剛需。
谷歌DeepMindCEOHassabis曾在公開演講中提到,「原生多模態(tài)模型是通向AGI的關(guān)鍵」。
也就是說,未來的AI系統(tǒng)需要超越單一模態(tài),真正理解和整合多種感官信息,才能在復(fù)雜場景中發(fā)揮作用,從「實(shí)驗(yàn)室標(biāo)桿」走向「產(chǎn)業(yè)剛需」。
在「性能好」方面,Step3不僅知識豐富,還具備了嚴(yán)謹(jǐn)?shù)倪壿嫼投嗖酵评砟芰?,滿足了強(qiáng)化學(xué)習(xí)范式下,對強(qiáng)大推理能力的需求。
發(fā)布會上,階躍官宣,預(yù)計7月31日,Step3將面向全球企業(yè)和開發(fā)者開源。
如此強(qiáng)大的多模態(tài)推理模型開源后,意味著企業(yè)和開發(fā)者都可以基于自身?xiàng)l件進(jìn)行私有化部署,對其進(jìn)行訓(xùn)練和微調(diào)。
Step3的另一大殺手锏,便是對所有芯片友好。這也是「省」一大特點(diǎn)背后的關(guān)鍵因素。
要降低推理模型的成本,核心要素是提高解碼效率。
市面上的主流開源模型,雖然針對解碼做了大量優(yōu)化,但這些優(yōu)化方案主要適配國際高端芯片,在中端及國產(chǎn)芯片上的解碼效率仍有提升空間。
為了突破這點(diǎn),Step3進(jìn)行了系統(tǒng)性的技術(shù)創(chuàng)新,在架構(gòu)設(shè)計階段就充分考量了系統(tǒng)與硬件的特性,能夠?qū)崿F(xiàn)廣泛硬件平臺上的高效推理,解碼效率達(dá)到行業(yè)領(lǐng)先水平。
根據(jù)原理分析,Step3在國產(chǎn)芯片上的推理效率最高可達(dá)DeepSeek-R1的300%。
在基于NVIDIAHopper架構(gòu)的芯片進(jìn)行分布式推理時,實(shí)測Step3相較于DeepSeek-R1的吞吐量提升超70%。
這意味著Step3具備廣泛的普適性,在各種硬件環(huán)境下部署,都能大幅降低推理成本。
那么Step3究竟采用了怎樣的技術(shù)架構(gòu),才能實(shí)現(xiàn)如此卓越的多模態(tài)推理能力與成本效率?
系統(tǒng)創(chuàng)新,提升推理效率
大模型技術(shù)發(fā)展至今,尤其是在長上下文推理任務(wù)中,大部分模型都面臨較低的解碼效率。
Step3能做到「大而實(shí)惠」,得益于階躍星辰在軟硬件協(xié)同設(shè)計優(yōu)化,這是模型和硬件平衡的藝術(shù)。
Step3在國產(chǎn)芯片上的推理效率最高可達(dá)DeepSeek-R1的300%,且對所有芯片友好。
在基于NVIDIAHopper架構(gòu)的芯片進(jìn)行分布式推理時,實(shí)測Step3相較于DeepSeek-R1的吞吐量提升超70%。
Step3總共擁有316B參數(shù),激活參數(shù)為38B。此外還有一個5B參數(shù)的視覺編碼器。
對于FFN前饋神經(jīng)網(wǎng)絡(luò),Step3采用了受到DeepSeekMoE啟發(fā)的共享專家設(shè)計。
對于MFA,Step3配置了64個注意力頭,KV維度256,Query維度2048。
Step3能夠?qū)崿F(xiàn)高性價比(高成本效益)的解碼,其核心在于一套深度集成的模型-系統(tǒng)協(xié)同設(shè)計(model-systemco-design)理念。
注意力-前饋網(wǎng)絡(luò)解耦
Step3的推理系統(tǒng),可能是首個利用注意力-前饋網(wǎng)絡(luò)解耦(Attention-FFNDisaggregation,AFD)理念并實(shí)現(xiàn)高吞吐量解碼的生產(chǎn)級服務(wù)系統(tǒng)之一。
AFD是Step3實(shí)現(xiàn)高效解碼的系統(tǒng)級基石。
它將傳統(tǒng)大語言模型中交錯的Attention層和FFN(前饋網(wǎng)絡(luò))層在物理上分離開,部署到不同的專用GPU集群上。
這種架構(gòu)上的分離使得每個子系統(tǒng)可以采用最適合其計算特性的不同并行策略。
在處理4K平均上下文長度的特定場景下,Step3僅需32個GPU,遠(yuǎn)少于DSv3在類似任務(wù)中所需的128個GPU。
當(dāng)上下文長度為8K,Step3的理論解碼成本最低。每1M解碼token的成本約為0.055美元。
各模型在不同硬件上的理論解碼成本分析(單位:美元)。注意:這些模型的激活參數(shù)數(shù)量不同:DSv337B,Qwen3MoE22B,Qwen332B,MMM146B,ERNIE4.547B,PanguProMoE16.5B和Step338B
不同模型和推理配置的解碼成本(每1M個token)
Step3在非Hopper系列的廉價硬件上依然保持很高的成本效益。
軟硬協(xié)同
計算強(qiáng)度(ArithmeticIntensity)指計算操作與內(nèi)存訪問字節(jié)數(shù)的比率。
Step3的MFA的算術(shù)強(qiáng)度設(shè)計為128,這使得它能更好地匹配各類加速器(如A800、910B)的硬件特性,避免了因算力或帶寬的單一瓶頸而導(dǎo)致效率低下。
解碼過程中不同注意力設(shè)計的計算和內(nèi)存訪問
Step?3的MFA同時實(shí)現(xiàn)了低計算和內(nèi)存訪問。
上圖顯示它的所需計算量是DSv3的四分之一,其所需內(nèi)存訪問量是Qwen3的三分之一。
使用AFD,注意力機(jī)制和FFN組件都可以分別輕松擴(kuò)展。
AFD架構(gòu)中的模塊解耦。FFN可以部署在TP-only、EP-only或混合TP+EP的方式,具體取決于硬件和模型架構(gòu)
這為利用非旗艦硬件進(jìn)行注意力部分或FFN部分的處理創(chuàng)造了更多機(jī)會。
此外,Step3還為AFD量身定制了高性能AF通信庫StepMesh。
上圖展示了為AFD量身定制的StepMesh通信工作流程:
1)異步API和專用線程;
2)基于CPU的操作執(zhí)行;
3)預(yù)注冊張量以實(shí)現(xiàn)高效通信。
用于多個加速器的StepMesh框架
上圖展示了StepMesh框架,該框架設(shè)計為高度可擴(kuò)展的架構(gòu),能夠集成新型加速器。
此框架將加速器視為后端,并建立了一組用于AFD通信的關(guān)鍵后端接口。
這些接口涵蓋了內(nèi)存分配和流同步等核心功能。
通過遵循這些定義良好的接口,新型加速器可以輕松集成到StepMesh框架中。
StepMesh實(shí)現(xiàn)了異構(gòu)加速器之間的無縫通信,不同類型硬件都能夠高效協(xié)作。
兩年多箭齊發(fā),真·多模態(tài)卷王
階躍星辰雖然僅成立兩年多,但其實(shí)已經(jīng)是名副其實(shí)的「多模態(tài)卷王」。
隨著Step3發(fā)布,階躍也構(gòu)建起獨(dú)創(chuàng)的「1+N」的Step系列大模型矩陣,持續(xù)突破技術(shù)邊界。
「1」是指Step3基礎(chǔ)大模型;「N」則為Step系列的多模態(tài)大模型矩陣,廣泛覆蓋語音、視覺理解、圖像編輯、圖像和視頻生成、音樂等領(lǐng)域。
本次WAIC期間,階躍升級了多模態(tài)模型,包括階躍首個多模理解生成一體化模型Step3oVision,第二代端到端語音大模型Step-Audio2,都可以在「階躍AI」官網(wǎng)(stepfun.com)和「階躍AI」App進(jìn)行體驗(yàn)。
我們淺玩了一下「階躍AI」的視頻通話功能后發(fā)現(xiàn),真有點(diǎn)鋼鐵俠里「賈維斯」那味兒了。
它可以開啟攝像頭,觀察周圍環(huán)境,還能識別環(huán)境中的復(fù)雜物體。
比如可以識別出套著黑色外殼的蘋果耳機(jī),也可以在白色桌面上識別出透光的眼鏡。
即使在環(huán)境光強(qiáng)反射下,依然能夠穩(wěn)定識別全英文包裝的藥品。
可以一字不差的檢測出手里拿著的是「BLACKMORES」魚油品牌,并且還準(zhǔn)確給出了產(chǎn)品功效的解讀。
成立兩年多以來,Step系列已經(jīng)發(fā)布了26款自研基座模型,多模態(tài)占比超七成,而且模型性能也保持著行業(yè)的頂尖水平。
在不斷追求模型智能上限的同時,階躍也在持續(xù)探索著模型的落地應(yīng)用。
與其他廠商只發(fā)模型不同,Step3更進(jìn)一步,實(shí)現(xiàn)了商業(yè)價值的大幅聯(lián)動。階躍認(rèn)為要讓大模型真正用起來,不僅僅是訓(xùn)練一個模型,需要全產(chǎn)業(yè)鏈的聯(lián)合創(chuàng)新。
在發(fā)布會現(xiàn)場,階躍星辰宣布聯(lián)合近10家芯片及基礎(chǔ)設(shè)施廠商,共同發(fā)起「模芯生態(tài)創(chuàng)新聯(lián)盟」,致力于打通芯片、模型和平臺全鏈路技術(shù)。
通過底層聯(lián)合創(chuàng)新提升大模型適配性和算力效率,該聯(lián)盟將為企業(yè)和開發(fā)者提供高效易用的大模型解決方案,加速應(yīng)用落地。
首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數(shù)智芯、無問芯穹、寒武紀(jì)、摩爾線程、硅基流動等。
目前,華為昇騰芯片已首先實(shí)現(xiàn)Step3的搭載和運(yùn)行。沐曦、天數(shù)智芯和燧原等也已初步實(shí)現(xiàn)運(yùn)行Step3。其它聯(lián)盟廠商的適配工作正在開展。
階躍的AGI之路并不單純追求炫技,而是在每一代模型的研發(fā)中都思考如何讓大模型真正用起來,無論是尋求突破系統(tǒng)級創(chuàng)新,還是聯(lián)合全鏈條技術(shù)產(chǎn)業(yè)一起探索更底層的協(xié)同創(chuàng)新。
階躍星辰創(chuàng)始人、CEO姜大昕說,「從Step1到Step2兩代基模的快速迭代,促使我們深入思考什么才是最適合應(yīng)用的模型。隨著大模型進(jìn)入到強(qiáng)化學(xué)習(xí)發(fā)展階段,新一代推理模型成為主流,模型性能的提升固然顯著,但這是否完全等同于模型價值?面對這一產(chǎn)業(yè)之問,我們必須回歸客戶需求,立足真實(shí)應(yīng)用場景,探索模型創(chuàng)新落地的可行路徑。這是我們研發(fā)新一代Step3基礎(chǔ)模型的出發(fā)點(diǎn)」。
在通往AGI征程中,階躍星辰正以開拓者之姿,引領(lǐng)中國AI駛向更廣闊的星辰大海。
延伸閱讀:與 37歲闞清子官宣懷孕模樣大變胖到認(rèn)不出自曝已:{胖81%了}30斤 的相關(guān)文章