機(jī)器之心報(bào)道
Panda
天氣很熱,WAIC2025也很熱,來自中國的開源模型軍團(tuán)更是熱上加熱。
就在剛剛開始的WAIC2025(世界人工智能大會(huì))前一天,被譽(yù)為「多模態(tài)卷王」的階躍星辰率先投下一枚重磅炸彈,正式推出其新一代基座模型:Step3
這并非又一個(gè)普通的模型迭代。從各項(xiàng)數(shù)值上看,Step3無疑是開源VLM新晉之王,在MMMU、MathVision和SimpleVQA等基準(zhǔn)上均超越了其它同類別開源模型。
即便與OpenAIo3、Gemini2.5Pro、ClaudeOpus4等頂尖的閉源VLM相比,它的推理能力也有一戰(zhàn)之力。
Step3一發(fā)布就吸引了海內(nèi)外廣泛關(guān)注,比如在我們的相關(guān)推文下方,就有多位網(wǎng)友表達(dá)贊譽(yù)。
機(jī)器之心也在階躍星辰發(fā)布會(huì)現(xiàn)場(chǎng),親眼見證了這又一「國產(chǎn)之光」的誕生。
整場(chǎng)發(fā)布會(huì)下來,我們的感受是Step3不僅是一個(gè)性能強(qiáng)大的模型,同時(shí)也是一個(gè)答案。它回答的是這樣一個(gè)橫亙?cè)谒蠥I從業(yè)者面前的問題:什么樣的模型才是真正能服務(wù)于千行百業(yè)、最適合商業(yè)化應(yīng)用的理想形態(tài)?
如今,AI的行業(yè)敘事已經(jīng)清晰地從訓(xùn)練場(chǎng)轉(zhuǎn)向了真實(shí)世界的推理任務(wù)。當(dāng)頂尖模型的智能上限被不斷拔高后,真正的瓶頸落在了應(yīng)用側(cè)。推理成本居高不下特定場(chǎng)景適配難多模態(tài)能力調(diào)用不全堪稱阻礙AI技術(shù)走向大眾的「三座大山」。因此,一個(gè)真正適合應(yīng)用的推理模型,必須在智能成本效率和通用性之間找到最佳的平衡點(diǎn)。
而Step3回答的方式可以凝練成四個(gè)字:多開好省
,即多模態(tài)。Step3具備文本和視覺的多模態(tài)能力,實(shí)現(xiàn)了多模合一。,即開源。階躍星辰表示Step3將于7月31日面向全球企業(yè)和開發(fā)者開源。,即性能優(yōu)異。Step3是最強(qiáng)大的開源多模態(tài)推理模型。,即效率更高、成本更低。Step3的高效率和低使用成本使其非常適合商業(yè)部署和應(yīng)用——實(shí)現(xiàn)了行業(yè)最高的推理解碼效率,在國產(chǎn)芯片上的推理成本僅為當(dāng)前業(yè)界領(lǐng)先開源模型的三分之一。
這一發(fā)布不僅是階躍星辰自身從技術(shù)深耕邁向商業(yè)化成熟的宣言,更可能為深陷成本與應(yīng)用難題的AI行業(yè)提供一個(gè)極具吸引力的新范式。Step3究竟能否憑借其「四字真言」成為推理時(shí)代的一個(gè)最優(yōu)解?一切答案,正從這里揭曉。
機(jī)器之心實(shí)測(cè)
VLM開源第一王實(shí)至名歸
實(shí)踐可以檢驗(yàn)真理。Step3究竟能否戴上「開源VLM之王」的桂冠,同樣需要實(shí)踐驗(yàn)證。目前,Step3已經(jīng)上線stepfun.com與階躍AIAPP,我們也在第一時(shí)間對(duì)其進(jìn)行了多維度測(cè)試。
我們的第一個(gè)測(cè)試頗具趣味性,可以考驗(yàn)其觀察與分析能力:派出我家肥貓,讓Step3來對(duì)她進(jìn)行「視覺稱重」。
Step3的表現(xiàn)相當(dāng)出色:它不僅準(zhǔn)確識(shí)別出貓的品種(三花貓)及其身下的人體工學(xué)坐墊,還對(duì)貓的體型(體型勻稱)進(jìn)行了分析,最終給出了一個(gè)相當(dāng)精準(zhǔn)的體重估測(cè)。
Step3甚至還能幫你理解新鮮熱梗,就以昨天堪稱「最逆天的NeurIPS評(píng)審」的「Who'sAdam?」為例,我們直接將推文截圖交給Step3,然后問它為什么這個(gè)帖子這么火。
而Step3的表現(xiàn)可以說超出了預(yù)期,不僅清晰地解釋了「Who'sAdam?」的內(nèi)涵并解答了其火爆的原因,更是用一句「戳中了AI研究者們對(duì)審稿質(zhì)量焦慮的痛點(diǎn)」做了恰到好處的犀利總結(jié)。
Step3也支持同時(shí)輸入多個(gè)視覺內(nèi)容,比如這里我們讓Step3根據(jù)四張歌詞的截圖編寫了一個(gè)感人的故事:
Step3證明了其強(qiáng)大的多模態(tài)信息整合與創(chuàng)意生成能力后,我們又測(cè)試一下Step3的深度推理能力:根據(jù)一張貼有貼紙的主機(jī)的側(cè)面照片推測(cè)其上一共有多少貼紙。這個(gè)問題對(duì)當(dāng)今的多模態(tài)模型來說還相對(duì)較難,而我們也將測(cè)試平臺(tái)換到了網(wǎng)頁端stepfun.com。
可以看到,Step3首先準(zhǔn)確地識(shí)別出了這些貼紙的角色,然后它又準(zhǔn)確統(tǒng)計(jì)出了可見部分中貼紙的數(shù)量。之后Step3進(jìn)入了更深度的思考,考慮了提示詞中提到的「對(duì)稱」的各種可能性。最終,它正確地確定了最終答案,并相當(dāng)準(zhǔn)確地給出了可見部分貼紙中的內(nèi)容。
我們還讓Step3挑戰(zhàn)了一項(xiàng)終極任務(wù):解讀其自身的技術(shù)報(bào)告中的一張圖,這將是對(duì)其專業(yè)視覺理解能力的極致考驗(yàn)。
可以看到,Step3基本正確地解讀了Step3技術(shù)報(bào)告中AFD架構(gòu)的模塊分解示意圖。
經(jīng)過一系列的實(shí)測(cè),Step3的交互體驗(yàn)讓我們印象深刻,甚至讓我們一度驚嘆:這么強(qiáng)的模型竟也開源?其響應(yīng)流暢,視覺理解能力超強(qiáng),在處理極其復(fù)雜的或有歧義的視覺問題時(shí),其回答偶有偏差,這也在意料之中。但其強(qiáng)大的基礎(chǔ)視覺理解、推理能力以及流暢的交互體驗(yàn),已經(jīng)足以證明它在當(dāng)前的開源多模態(tài)模型中確實(shí)坐擁王者之位。Step3所展現(xiàn)的,是一個(gè)真正能「看懂」并「理解」物理世界的AI助手雛形。
順帶一提,在測(cè)試Step3的過程中,我們還驚喜地發(fā)現(xiàn)了階躍AIApp上一個(gè)被許多用戶忽視的功能:智能視頻通話。在該功能下,用戶只需在App內(nèi)開啟攝像頭,手機(jī)便化身為一個(gè)強(qiáng)大的智能視覺助手。
我們實(shí)測(cè)發(fā)現(xiàn),實(shí)時(shí)視覺理解能力非常驚艷!比如在下面這個(gè)案例中,階躍AI不僅迅速識(shí)別出了這款桌游名叫「Splendor(璀璨寶石)」,還準(zhǔn)確地闡述了其背景信息。
當(dāng)一只好奇的貓突然闖入鏡頭,占據(jù)游戲盒時(shí),我們實(shí)時(shí)打斷了Step3的介紹并發(fā)問。模型無縫切換了對(duì)話,并圍繞這位「不速之客」給出了一些頗為有趣且有用的建議,展現(xiàn)了其強(qiáng)大的實(shí)時(shí)多模態(tài)對(duì)話與打斷能力。
深度拆解
Step3是如何誕生的?
那么,如此「多開好省」的Step3究竟是如何煉成的呢?翻開Step3的系統(tǒng)和架構(gòu)技術(shù)報(bào)告,我們可以看到答案并非單一技術(shù)的突破,而是源于一套完整且自洽的技術(shù)棧,涵蓋了從底層原創(chuàng)架構(gòu)到高層系統(tǒng)協(xié)同的全鏈路創(chuàng)新。
技術(shù)報(bào)告:Step-3isLargeyetAffordable:Model-systemCo-designforCost-effectiveDecoding報(bào)告地址:https://github.com/stepfun-ai/Step3/blob/main/Step3-Sys-Tech-Report.pdf
首先,底層架構(gòu)上,Step3采用了階躍星辰原創(chuàng)的MFA架構(gòu),即Multi-matrixFactorizationAttention(多矩陣分解注意力)。該架構(gòu)在設(shè)計(jì)之時(shí)就兼顧了效率與性能,其中的創(chuàng)新之處包括增加注意力頭的數(shù)量和維度、采用激進(jìn)的低秩分解策略以及采用單鍵值(QK)頭設(shè)計(jì)。這樣一來,MFA架構(gòu)既能最大限度地節(jié)省資源,又能盡可能接近理論性能上限。
MFA和MFA-KR架構(gòu)與MQA/GQA架構(gòu)的比較
Step3使用的MFA還專門針對(duì)國產(chǎn)芯片進(jìn)行了優(yōu)化。這是MFA架構(gòu)最關(guān)鍵的亮點(diǎn)之一。針對(duì)國產(chǎn)芯片在制程和HBM(高帶寬顯存)限制下,算力與顯存帶寬受限的普遍痛點(diǎn),MFA進(jìn)行了專門優(yōu)化。其計(jì)算密度(128倍于KV訪存量)完美匹配國產(chǎn)芯片的特性,避免了主流架構(gòu)MLA(需要巨大算力)和GQA(需要巨大訪存)在國產(chǎn)芯片上會(huì)遭遇的計(jì)算瓶頸或訪存瓶頸。
技術(shù)數(shù)據(jù)顯示,在同尺寸和同等激活參數(shù)量下,Step3的MFA架構(gòu)所需絕對(duì)KV量?jī)H為QwenGQA的1/3,絕對(duì)計(jì)算量?jī)H為DeepSeekMLA的1/4。這使得Step3在國產(chǎn)芯片上的運(yùn)行成本甚至比DeepSeek和Qwen在高端芯片上更低!這能真正從底層技術(shù)上助力國產(chǎn)芯片與國際頂尖芯片同臺(tái)競(jìng)技。
更高層級(jí)上,Step3采用了MoE(混合專家)架構(gòu),總參數(shù)量為321B(其中LLM的參數(shù)量316B,視覺編碼器的參數(shù)量5B),激活參數(shù)量則達(dá)到38B
Step3模型卡
這一規(guī)??纱_保其算法效果與DeepSeek(激活37B)相當(dāng),并強(qiáng)于Qwen(激活22B)。
更重要的是,階躍星辰還進(jìn)一步對(duì)MoE的部署進(jìn)行了深度優(yōu)化:
先進(jìn)的分布式推理:階躍星辰實(shí)現(xiàn)了一套比DeepSeek的「大EP」模式更先進(jìn)的分布式推理方案Attention-FFNDisaggregation(AFD),針對(duì)Attention和FFN的計(jì)算特點(diǎn),分別分配給內(nèi)存帶寬大和算力強(qiáng)的GPU集群,實(shí)現(xiàn)資源精準(zhǔn)匹配,從而進(jìn)一步壓縮成本。該方案可配合分享通信庫的參考實(shí)現(xiàn),無需依賴英偉達(dá)特有的IBGDA等功能,因此對(duì)各類國產(chǎn)芯片廠商更加友好。網(wǎng)絡(luò)部署友好:AF分離方案相比大EP,可用相對(duì)較小的部署規(guī)模,較好地緩解了大規(guī)模部署時(shí)跨ToR的網(wǎng)絡(luò)抖動(dòng)問題。
在32k上下文長(zhǎng)度下,每個(gè)解碼token的計(jì)算和內(nèi)存理論使用量
正是在原創(chuàng)MFA架構(gòu)、高效MoE方案以及軟硬件協(xié)同創(chuàng)新的共同作用下,Step3最終得以「多開好省」的王者姿態(tài)呈現(xiàn)在世人面前。
模態(tài)方面,作為業(yè)內(nèi)享有盛譽(yù)的「多模態(tài)卷王」,階躍星辰這一次又在這個(gè)賽道上卷到了新的高度。Step3是階躍星辰首個(gè)全尺寸的原生多模態(tài)推理模型,具備強(qiáng)大的視覺理解能力。Step3同時(shí)還有強(qiáng)大的推理能力,是開源模型中少有的即支持多模態(tài)又能深度推理的大模型。
源方面,繼DeepSeek系列模型、Qwen系列模型以及KimiK2之后,Step3作為又一強(qiáng)大的開源模型,在獨(dú)特的多模態(tài)賽道上為國產(chǎn)AI再次贏得了榮譽(yù)。
接下來的,自然是性能卓越,Step3用SOTA成績(jī)證明了自己。在MMMU、MathVision等多個(gè)權(quán)威多模態(tài)基準(zhǔn)上,其成績(jī)超越了ERINE4.5、GLM-4.1V-thinking等一眾開源模型。
最后,在至關(guān)重要的方面,通過AFD等一系列極致的優(yōu)化,階躍星辰用Step3交出了一份驚人的答卷!
根據(jù)原理分析,Step3在國產(chǎn)芯片上的推理效率最高可達(dá)DeepSeek-R1的300%,且對(duì)所有芯片友好;在基于NVIDIAHopper架構(gòu)的芯片進(jìn)行分布式推理時(shí),實(shí)測(cè)Step3相較于DeepSeek-R1的吞吐量提升超70%。
這一切并非通過補(bǔ)貼或犧牲性能實(shí)現(xiàn)的「價(jià)格戰(zhàn)」,而是通過提升解碼效率等核心技術(shù)創(chuàng)新帶來的、可持續(xù)的成本效益革命。
事實(shí)上,Step3的橫空出世并非一日之功,而是階躍星辰在技術(shù)路線上長(zhǎng)期積累與迭代的必然結(jié)果?;仡櫰銼tep系列基座模型的發(fā)展歷程,我們可以清晰地看到一條從夯實(shí)基礎(chǔ)、探索深度智能到聚焦商業(yè)化效率的進(jìn)化路徑。
這一切始于,這是階躍星辰自主研發(fā)的千億參數(shù)語言大模型,其性能全面超越GPT-3.5,為公司奠定了堅(jiān)實(shí)的技術(shù)基石。之后,采用MoE架構(gòu)的Step-2將探索的重點(diǎn)轉(zhuǎn)向深度智能,成為國內(nèi)首個(gè)由創(chuàng)業(yè)公司發(fā)布的萬億參數(shù)語言大模型,在多種任務(wù)的體感上全面逼近GPT-4,并曾在「最難LLM評(píng)測(cè)榜單」LiveBench上拿下中國第一、全球第五的佳績(jī)。
從Step-1對(duì)標(biāo)GPT-3.5到Step-2對(duì)標(biāo)GPT-4,正是這些在模型架構(gòu)、算法與系統(tǒng)上的持續(xù)創(chuàng)新與深厚積累,最終成為Step-3在推理時(shí)代實(shí)現(xiàn)極致的商業(yè)化效能的有效支撐。
NotJustOneMoreThing
階躍星辰可以更高調(diào)
在過去兩年多的時(shí)間里,由微軟前全球副總裁姜大昕博士創(chuàng)立的階躍星辰,雖憑借其強(qiáng)大的模型矩陣被業(yè)內(nèi)冠以「多模態(tài)卷王」的美譽(yù),但其行事風(fēng)格整體不算高調(diào)。
但這一次,隨著開源Step3的震撼發(fā)布,「階躍星辰StepFun」這個(gè)名字注定將成為AI社區(qū)的一個(gè)熱詞。更重要的是,在本次發(fā)布會(huì)上,我們看到的遠(yuǎn)不止Step3這一個(gè)模型。正如那句經(jīng)典的「OneMoreThing」,階躍星辰展示了其在技術(shù)生態(tài)與商業(yè)化落地上同樣宏大的布局。
第一個(gè)OneMoreThing是階躍星辰攜手華為昇騰、沐曦、壁仞科技、燧原科技、天數(shù)智芯、無問芯穹、寒武紀(jì)、摩爾線程、硅基流動(dòng)等10家芯片及基礎(chǔ)設(shè)施廠商,共同發(fā)起「模芯生態(tài)創(chuàng)新聯(lián)盟」。
這個(gè)堪稱「豪華朋友圈」的聯(lián)盟的意義遠(yuǎn)超一次簡(jiǎn)單的站臺(tái)。它代表了一種更深層的行業(yè)思考:要真正推動(dòng)大模型的普及,僅靠模型廠商之間的API「價(jià)格戰(zhàn)」遠(yuǎn)遠(yuǎn)不夠,根本路徑在于通過模型與芯片廠商的底層協(xié)同創(chuàng)新,真正可持續(xù)地降低成本。Step3模型對(duì)國產(chǎn)芯片的深度適配和極致的效率優(yōu)化,可以說正是這一模式下誕生的首個(gè)碩果,它不僅讓自身更具應(yīng)用性,也為整個(gè)國產(chǎn)算力生態(tài)的發(fā)展注入了強(qiáng)心劑。
第二個(gè)OneMoreThing是一份極其亮眼的「商業(yè)化半年報(bào)」。
主要得益于在智能終端Agent領(lǐng)域(手機(jī)和汽車)的率先布局和量產(chǎn)落地,階躍星辰的商業(yè)化應(yīng)用在2025年增長(zhǎng)迅猛。階躍星辰開放平臺(tái)數(shù)據(jù)顯示,2025年上半年來自智能終端的多模態(tài)模型調(diào)用次數(shù)和調(diào)用量,較去年下半年環(huán)比增長(zhǎng)均超過800%。預(yù)計(jì)階躍星辰年內(nèi)收入將接近10億元!
在手機(jī)領(lǐng)域,Top10國產(chǎn)手機(jī)廠商中過半已和階躍星辰達(dá)成合作。其多模態(tài)能力已落地多個(gè)智能手機(jī)品牌的量產(chǎn)旗艦機(jī)型,陪伴著上億人的日常生活。在汽車領(lǐng)域,其端到端語音大模型在吉利銀河M9上實(shí)現(xiàn)行業(yè)首發(fā)上車,并聯(lián)合發(fā)布了新一代智能座艙AgentOS(預(yù)覽版)。在具身智能和IoT領(lǐng)域,階躍星辰也已經(jīng)與一些頭部廠商建立了合作關(guān)系。
從深耕技術(shù)到廣積糧草,再到如今手握王牌模型、聯(lián)合生態(tài)伙伴并交出亮眼的商業(yè)答卷;這一次,一向「埋頭做事」的階躍星辰,完全有理由、也理應(yīng)更高調(diào)。
從多模態(tài)卷王到推理時(shí)代的「最優(yōu)解」
在過去一年多的時(shí)間里,階躍星辰憑借其驚人的迭代速度和全面的模型矩陣,被業(yè)界冠以「多模態(tài)卷王」的稱號(hào)。截至今天,其發(fā)布的26款模型中有多達(dá)20款是多模態(tài)模型,在整體基座模型中占比超過七成,且在多個(gè)權(quán)威榜單上名列前茅。
而Step3的發(fā)布,清晰地標(biāo)志著這位「卷王」已進(jìn)入新的戰(zhàn)略層次。它不再僅僅是展示肌肉、追求單一維度的技術(shù)領(lǐng)先,而是將目光投向了整個(gè)行業(yè)最核心、最迫切的痛點(diǎn):在AI全面進(jìn)入應(yīng)用的「推理時(shí)代」,如何提供一個(gè)真正好用、普惠且強(qiáng)大的商業(yè)化模型。
階躍星辰給出的答案就是Step3。它并非簡(jiǎn)單的打榜模型,而是一個(gè)試圖將多模態(tài)能力(多)、開源生態(tài)(開)、頂尖性能(好)與極致效率(?。┧膫€(gè)關(guān)鍵維度進(jìn)行完美融合的「最優(yōu)解」。通過填補(bǔ)「好用且開源的多模態(tài)推理模型」這一市場(chǎng)空白,它為萬千開發(fā)者和企業(yè)提供了一個(gè)無需在性能與成本、開放與能力之間艱難取舍的全新選擇。
更重要的是,階躍星辰選擇了一條更艱難但更具長(zhǎng)期價(jià)值的路徑。相較于容易引發(fā)惡性競(jìng)爭(zhēng)的API價(jià)格戰(zhàn),其聯(lián)合芯片及基礎(chǔ)設(shè)施廠商成立「模芯生態(tài)創(chuàng)新聯(lián)盟」致力于通過「模型和系統(tǒng)聯(lián)合創(chuàng)新」的模式,從根本上推動(dòng)技術(shù)普及和成本降低。這不僅展現(xiàn)了其作為技術(shù)公司的格局,也為行業(yè)探索出一條更可持續(xù)的良性增長(zhǎng)之路。
從「卷王」到「解題者」,階躍星辰用Step3證明了其對(duì)產(chǎn)業(yè)的深刻洞察。這不僅是一家AI公司技術(shù)實(shí)力的體現(xiàn),更標(biāo)志著其走向商業(yè)成熟的決心,也就是為市場(chǎng)打造一個(gè)真正有誠意、有價(jià)值、用得起的大模型
文中視頻鏈接:https://mp.weixin.qq.com/s/t9HAQG6WD3BPwg95d4Y8Fw