新智元報道
定慧桃子
【新智元導讀】新一代多模態(tài)推理基模Step3橫空出世了!是專為推理時代打造的最適合應用的模型,以最高可達DeepSeek-R1300%的推理效率擊破行業(yè)天花板。7月31日,Step3將正式開源,問鼎開源最強多模推理模型。
2025年,AI模型到底有多卷?
谷歌和OpenAI從年初開始「打生打死」,發(fā)布會一場接一場,最近OpenAI更是為了和谷歌DeepMind爭奪「IMO金牌第一推理模型」互相撕臉。
閉源模型們神仙打架,開源模型卻是「格局已變」。
開源模型這塊,國內(nèi)已經(jīng)快一枝獨秀了,DeepSeek、Qwen、StepFun、KimiK2等成為海外討論的焦點。
曾經(jīng)的開源之光Meta的Llama已經(jīng)被人遺忘,逼得扎克伯格顧不得體面瘋狂挖人。
喧囂之后:什么才是真正「好用」的AI模型?
時至今日,整個行業(yè)都意識到,真正的問題是,到底什么樣的模型才能真正服務于千行百業(yè),而不僅僅是刷新各個Bench的榜單。
遺憾的是,放眼望去,能同時滿足「開源」,又能提供「多模態(tài)能力」,還能「推理」的模型,還真的數(shù)不出幾個,更別說好用了。
2025WAIC大會上,階躍星辰的新一代主力基座模型Step3,帶來了意想不到的驚喜。
Step3:開源多模態(tài)推理新標桿
新一代旗艦基模Step3的發(fā)布,標志著階躍多模態(tài)大模型又一個新里程碑。
它采用了原創(chuàng)MFA架構(gòu),通過模型和系統(tǒng)聯(lián)合創(chuàng)新,實現(xiàn)了行業(yè)領(lǐng)先的推理效率、極致性價比。
要說Step3的核心亮點,可以概括為四個字——「多開好省」。
具體來說,多代表「多模態(tài)」,開代表「開源」,好代表「強智能」,省代表「低成本」。
接下來,就我們一一拆解,這四大維度背后代表的真正含義。
作為AI界「多模態(tài)卷王」,階躍首發(fā)的Step3綜合實力究竟有多強?
Step3在MMMU、MathVision、SimpleVQA、AIME2025、LiveCodeBench(2024.08-2025.05)等榜單上直接拿下了開源多模態(tài)推理模型的SOTA成績。
榜單成績刷的再高,不如真正拉出來遛一遛。
能看會道,雙商太高了
現(xiàn)在,直接進入階躍AI的網(wǎng)頁版和手機版,即可開啟Step3的最新體驗。
傳送門:https://www.stepfun.com/chats/new
在視覺推理實測中,Step3能夠?qū)D片中的細節(jié),充分理解到位。
比如,扔給階躍AI一張貓咪圖,并問「圖片里有幾只貓」?
Step3思考后給出回復,一眼識別出「一只貓+影子」,并給出了導致視覺錯覺的原因。
再上一個難度測試,當你看到如下這張圖后,能否發(fā)現(xiàn)圖片中寫了什么?
別說AI了,眼神不太好的人,硬是盯半天也不一定能看出來。
Step3經(jīng)過長時間推理后,一步一步解讀出圖片中從上至下的字母,并將其組合成「AIMAKELIFEBETTER」的正確答案。
再比如,正在減肥期間的你,想要隨時監(jiān)測食物卡路里,同樣交給Step3就可以了。
上傳一張食物訂單圖,提問「2個人一餐吃了這些,人均攝入多少卡路里」?
不一會兒功夫,Step3就給你算的明明白白。
再來個經(jīng)典視覺難題「吉娃娃還是松餅」,堪稱AI視覺領(lǐng)域的「圖靈測試」,曾難倒了不少大模型。
那么,Step3的表現(xiàn)又如何呢?
令人驚喜的是,經(jīng)過縝密的思考之后,Step3準確列出了圖中所有吉娃娃的所在位置。
再比如室友小聚,需要AA制但又懶得分賬時,可以把相關(guān)圖片上傳給Step3。
一張聊天截圖,一張購物單,問下每個人均攤多少?
在仔細推敲之后,Step3針對5個人的花費給出了詳細的解答。
多開好省,最適合應用
更重要的是,這充分體現(xiàn)了Step3「多開好省」的核心亮點。
這四大維度,對于用戶來說至關(guān)重要。
人們在選擇模型時,這一過程就好比「木桶理論」,不僅要關(guān)注模型的單一優(yōu)勢,而是要綜合考量多維度的整體表現(xiàn)。
作為階躍首個全尺寸、原生多模態(tài)推理模型,Step3非常適合落地應用。
一直以來,數(shù)學、代碼成為業(yè)界考驗模型能力的重要方向,但在實際應用中,多模態(tài)才是真正的剛需。
谷歌DeepMindCEOHassabis曾在公開演講中提到,「原生多模態(tài)模型是通向AGI的關(guān)鍵」。
也就是說,未來的AI系統(tǒng)需要超越單一模態(tài),真正理解和整合多種感官信息,才能在復雜場景中發(fā)揮作用,從「實驗室標桿」走向「產(chǎn)業(yè)剛需」。
在「性能好」方面,Step3不僅知識豐富,還具備了嚴謹?shù)倪壿嫼投嗖酵评砟芰?,滿足了強化學習范式下,對強大推理能力的需求。
發(fā)布會上,階躍官宣,預計7月31日,Step3將面向全球企業(yè)和開發(fā)者開源。
如此強大的多模態(tài)推理模型開源后,意味著企業(yè)和開發(fā)者都可以基于自身條件進行私有化部署,對其進行訓練和微調(diào)。
Step3的另一大殺手锏,便是對所有芯片友好。這也是「省」一大特點背后的關(guān)鍵因素。
要降低推理模型的成本,核心要素是提高解碼效率。
市面上的主流開源模型,雖然針對解碼做了大量優(yōu)化,但這些優(yōu)化方案主要適配國際高端芯片,在中端及國產(chǎn)芯片上的解碼效率仍有提升空間。
為了突破這點,Step3進行了系統(tǒng)性的技術(shù)創(chuàng)新,在架構(gòu)設計階段就充分考量了系統(tǒng)與硬件的特性,能夠?qū)崿F(xiàn)廣泛硬件平臺上的高效推理,解碼效率達到行業(yè)領(lǐng)先水平。
根據(jù)原理分析,Step3在國產(chǎn)芯片上的推理效率最高可達DeepSeek-R1的300%。
在基于NVIDIAHopper架構(gòu)的芯片進行分布式推理時,實測Step3相較于DeepSeek-R1的吞吐量提升超70%。
這意味著Step3具備廣泛的普適性,在各種硬件環(huán)境下部署,都能大幅降低推理成本。
那么Step3究竟采用了怎樣的技術(shù)架構(gòu),才能實現(xiàn)如此卓越的多模態(tài)推理能力與成本效率?
系統(tǒng)創(chuàng)新,提升推理效率
大模型技術(shù)發(fā)展至今,尤其是在長上下文推理任務中,大部分模型都面臨較低的解碼效率。
Step3能做到「大而實惠」,得益于階躍星辰在軟硬件協(xié)同設計優(yōu)化,這是模型和硬件平衡的藝術(shù)。
Step3在國產(chǎn)芯片上的推理效率最高可達DeepSeek-R1的300%,且對所有芯片友好。
在基于NVIDIAHopper架構(gòu)的芯片進行分布式推理時,實測Step3相較于DeepSeek-R1的吞吐量提升超70%。
Step3總共擁有316B參數(shù),激活參數(shù)為38B。此外還有一個5B參數(shù)的視覺編碼器。
對于FFN前饋神經(jīng)網(wǎng)絡,Step3采用了受到DeepSeekMoE啟發(fā)的共享專家設計。
對于MFA,Step3配置了64個注意力頭,KV維度256,Query維度2048。
Step3能夠?qū)崿F(xiàn)高性價比(高成本效益)的解碼,其核心在于一套深度集成的模型-系統(tǒng)協(xié)同設計(model-systemco-design)理念。
注意力-前饋網(wǎng)絡解耦
Step3的推理系統(tǒng),可能是首個利用注意力-前饋網(wǎng)絡解耦(Attention-FFNDisaggregation,AFD)理念并實現(xiàn)高吞吐量解碼的生產(chǎn)級服務系統(tǒng)之一。
AFD是Step3實現(xiàn)高效解碼的系統(tǒng)級基石。
它將傳統(tǒng)大語言模型中交錯的Attention層和FFN(前饋網(wǎng)絡)層在物理上分離開,部署到不同的專用GPU集群上。
這種架構(gòu)上的分離使得每個子系統(tǒng)可以采用最適合其計算特性的不同并行策略。
在處理4K平均上下文長度的特定場景下,Step3僅需32個GPU,遠少于DSv3在類似任務中所需的128個GPU。
當上下文長度為8K,Step3的理論解碼成本最低。每1M解碼token的成本約為0.055美元。
各模型在不同硬件上的理論解碼成本分析(單位:美元)。注意:這些模型的激活參數(shù)數(shù)量不同:DSv337B,Qwen3MoE22B,Qwen332B,MMM146B,ERNIE4.547B,PanguProMoE16.5B和Step338B
不同模型和推理配置的解碼成本(每1M個token)
Step3在非Hopper系列的廉價硬件上依然保持很高的成本效益。
軟硬協(xié)同
計算強度(ArithmeticIntensity)指計算操作與內(nèi)存訪問字節(jié)數(shù)的比率。
Step3的MFA的算術(shù)強度設計為128,這使得它能更好地匹配各類加速器(如A800、910B)的硬件特性,避免了因算力或帶寬的單一瓶頸而導致效率低下。
解碼過程中不同注意力設計的計算和內(nèi)存訪問
Step?3的MFA同時實現(xiàn)了低計算和內(nèi)存訪問。
上圖顯示它的所需計算量是DSv3的四分之一,其所需內(nèi)存訪問量是Qwen3的三分之一。
使用AFD,注意力機制和FFN組件都可以分別輕松擴展。
AFD架構(gòu)中的模塊解耦。FFN可以部署在TP-only、EP-only或混合TP+EP的方式,具體取決于硬件和模型架構(gòu)
這為利用非旗艦硬件進行注意力部分或FFN部分的處理創(chuàng)造了更多機會。
此外,Step3還為AFD量身定制了高性能AF通信庫StepMesh。
上圖展示了為AFD量身定制的StepMesh通信工作流程:
1)異步API和專用線程;
2)基于CPU的操作執(zhí)行;
3)預注冊張量以實現(xiàn)高效通信。
用于多個加速器的StepMesh框架
上圖展示了StepMesh框架,該框架設計為高度可擴展的架構(gòu),能夠集成新型加速器。
此框架將加速器視為后端,并建立了一組用于AFD通信的關(guān)鍵后端接口。
這些接口涵蓋了內(nèi)存分配和流同步等核心功能。
通過遵循這些定義良好的接口,新型加速器可以輕松集成到StepMesh框架中。
StepMesh實現(xiàn)了異構(gòu)加速器之間的無縫通信,不同類型硬件都能夠高效協(xié)作。
兩年多箭齊發(fā),真·多模態(tài)卷王
階躍星辰雖然僅成立兩年多,但其實已經(jīng)是名副其實的「多模態(tài)卷王」。
隨著Step3發(fā)布,階躍也構(gòu)建起獨創(chuàng)的「1+N」的Step系列大模型矩陣,持續(xù)突破技術(shù)邊界。
「1」是指Step3基礎大模型;「N」則為Step系列的多模態(tài)大模型矩陣,廣泛覆蓋語音、視覺理解、圖像編輯、圖像和視頻生成、音樂等領(lǐng)域。
本次WAIC期間,階躍升級了多模態(tài)模型,包括階躍首個多模理解生成一體化模型Step3oVision,第二代端到端語音大模型Step-Audio2,都可以在「階躍AI」官網(wǎng)(stepfun.com)和「階躍AI」App進行體驗。
我們淺玩了一下「階躍AI」的視頻通話功能后發(fā)現(xiàn),真有點鋼鐵俠里「賈維斯」那味兒了。
它可以開啟攝像頭,觀察周圍環(huán)境,還能識別環(huán)境中的復雜物體。
比如可以識別出套著黑色外殼的蘋果耳機,也可以在白色桌面上識別出透光的眼鏡。
即使在環(huán)境光強反射下,依然能夠穩(wěn)定識別全英文包裝的藥品。
可以一字不差的檢測出手里拿著的是「BLACKMORES」魚油品牌,并且還準確給出了產(chǎn)品功效的解讀。
成立兩年多以來,Step系列已經(jīng)發(fā)布了26款自研基座模型,多模態(tài)占比超七成,而且模型性能也保持著行業(yè)的頂尖水平。
在不斷追求模型智能上限的同時,階躍也在持續(xù)探索著模型的落地應用。
與其他廠商只發(fā)模型不同,Step3更進一步,實現(xiàn)了商業(yè)價值的大幅聯(lián)動。階躍認為要讓大模型真正用起來,不僅僅是訓練一個模型,需要全產(chǎn)業(yè)鏈的聯(lián)合創(chuàng)新。
在發(fā)布會現(xiàn)場,階躍星辰宣布聯(lián)合近10家芯片及基礎設施廠商,共同發(fā)起「模芯生態(tài)創(chuàng)新聯(lián)盟」,致力于打通芯片、模型和平臺全鏈路技術(shù)。
通過底層聯(lián)合創(chuàng)新提升大模型適配性和算力效率,該聯(lián)盟將為企業(yè)和開發(fā)者提供高效易用的大模型解決方案,加速應用落地。
首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數(shù)智芯、無問芯穹、寒武紀、摩爾線程、硅基流動等。
目前,華為昇騰芯片已首先實現(xiàn)Step3的搭載和運行。沐曦、天數(shù)智芯和燧原等也已初步實現(xiàn)運行Step3。其它聯(lián)盟廠商的適配工作正在開展。
階躍的AGI之路并不單純追求炫技,而是在每一代模型的研發(fā)中都思考如何讓大模型真正用起來,無論是尋求突破系統(tǒng)級創(chuàng)新,還是聯(lián)合全鏈條技術(shù)產(chǎn)業(yè)一起探索更底層的協(xié)同創(chuàng)新。
階躍星辰創(chuàng)始人、CEO姜大昕說,「從Step1到Step2兩代基模的快速迭代,促使我們深入思考什么才是最適合應用的模型。隨著大模型進入到強化學習發(fā)展階段,新一代推理模型成為主流,模型性能的提升固然顯著,但這是否完全等同于模型價值?面對這一產(chǎn)業(yè)之問,我們必須回歸客戶需求,立足真實應用場景,探索模型創(chuàng)新落地的可行路徑。這是我們研發(fā)新一代Step3基礎模型的出發(fā)點」。
在通往AGI征程中,階躍星辰正以開拓者之姿,引領(lǐng)中國AI駛向更廣闊的星辰大海。
延伸閱讀:與 北約開始{施壓沒接}到中方電話的普京明白必須得和:特朗普!!見面了 的相關(guān)文章