機器之心報道
Panda
天氣很熱,WAIC2025也很熱,來自中國的開源模型軍團更是熱上加熱。
就在剛剛開始的WAIC2025(世界人工智能大會)前一天,被譽為「多模態(tài)卷王」的階躍星辰率先投下一枚重磅炸彈,正式推出其新一代基座模型:Step3
這并非又一個普通的模型迭代。從各項數(shù)值上看,Step3無疑是開源VLM新晉之王,在MMMU、MathVision和SimpleVQA等基準上均超越了其它同類別開源模型。
即便與OpenAIo3、Gemini2.5Pro、ClaudeOpus4等頂尖的閉源VLM相比,它的推理能力也有一戰(zhàn)之力。
Step3一發(fā)布就吸引了海內(nèi)外廣泛關注,比如在我們的相關推文下方,就有多位網(wǎng)友表達贊譽。
機器之心也在階躍星辰發(fā)布會現(xiàn)場,親眼見證了這又一「國產(chǎn)之光」的誕生。
整場發(fā)布會下來,我們的感受是Step3不僅是一個性能強大的模型,同時也是一個答案。它回答的是這樣一個橫亙在所有AI從業(yè)者面前的問題:什么樣的模型才是真正能服務于千行百業(yè)、最適合商業(yè)化應用的理想形態(tài)?
如今,AI的行業(yè)敘事已經(jīng)清晰地從訓練場轉向了真實世界的推理任務。當頂尖模型的智能上限被不斷拔高后,真正的瓶頸落在了應用側。推理成本居高不下特定場景適配難多模態(tài)能力調(diào)用不全堪稱阻礙AI技術走向大眾的「三座大山」。因此,一個真正適合應用的推理模型,必須在智能成本效率和通用性之間找到最佳的平衡點。
而Step3回答的方式可以凝練成四個字:多開好省
,即多模態(tài)。Step3具備文本和視覺的多模態(tài)能力,實現(xiàn)了多模合一。,即開源。階躍星辰表示Step3將于7月31日面向全球企業(yè)和開發(fā)者開源。,即性能優(yōu)異。Step3是最強大的開源多模態(tài)推理模型。,即效率更高、成本更低。Step3的高效率和低使用成本使其非常適合商業(yè)部署和應用——實現(xiàn)了行業(yè)最高的推理解碼效率,在國產(chǎn)芯片上的推理成本僅為當前業(yè)界領先開源模型的三分之一。
這一發(fā)布不僅是階躍星辰自身從技術深耕邁向商業(yè)化成熟的宣言,更可能為深陷成本與應用難題的AI行業(yè)提供一個極具吸引力的新范式。Step3究竟能否憑借其「四字真言」成為推理時代的一個最優(yōu)解?一切答案,正從這里揭曉。
機器之心實測
VLM開源第一王實至名歸
實踐可以檢驗真理。Step3究竟能否戴上「開源VLM之王」的桂冠,同樣需要實踐驗證。目前,Step3已經(jīng)上線stepfun.com與階躍AIAPP,我們也在第一時間對其進行了多維度測試。
我們的第一個測試頗具趣味性,可以考驗其觀察與分析能力:派出我家肥貓,讓Step3來對她進行「視覺稱重」。
Step3的表現(xiàn)相當出色:它不僅準確識別出貓的品種(三花貓)及其身下的人體工學坐墊,還對貓的體型(體型勻稱)進行了分析,最終給出了一個相當精準的體重估測。
Step3甚至還能幫你理解新鮮熱梗,就以昨天堪稱「最逆天的NeurIPS評審」的「Who'sAdam?」為例,我們直接將推文截圖交給Step3,然后問它為什么這個帖子這么火。
而Step3的表現(xiàn)可以說超出了預期,不僅清晰地解釋了「Who'sAdam?」的內(nèi)涵并解答了其火爆的原因,更是用一句「戳中了AI研究者們對審稿質(zhì)量焦慮的痛點」做了恰到好處的犀利總結。
Step3也支持同時輸入多個視覺內(nèi)容,比如這里我們讓Step3根據(jù)四張歌詞的截圖編寫了一個感人的故事:
Step3證明了其強大的多模態(tài)信息整合與創(chuàng)意生成能力后,我們又測試一下Step3的深度推理能力:根據(jù)一張貼有貼紙的主機的側面照片推測其上一共有多少貼紙。這個問題對當今的多模態(tài)模型來說還相對較難,而我們也將測試平臺換到了網(wǎng)頁端stepfun.com。
可以看到,Step3首先準確地識別出了這些貼紙的角色,然后它又準確統(tǒng)計出了可見部分中貼紙的數(shù)量。之后Step3進入了更深度的思考,考慮了提示詞中提到的「對稱」的各種可能性。最終,它正確地確定了最終答案,并相當準確地給出了可見部分貼紙中的內(nèi)容。
我們還讓Step3挑戰(zhàn)了一項終極任務:解讀其自身的技術報告中的一張圖,這將是對其專業(yè)視覺理解能力的極致考驗。
可以看到,Step3基本正確地解讀了Step3技術報告中AFD架構的模塊分解示意圖。
經(jīng)過一系列的實測,Step3的交互體驗讓我們印象深刻,甚至讓我們一度驚嘆:這么強的模型竟也開源?其響應流暢,視覺理解能力超強,在處理極其復雜的或有歧義的視覺問題時,其回答偶有偏差,這也在意料之中。但其強大的基礎視覺理解、推理能力以及流暢的交互體驗,已經(jīng)足以證明它在當前的開源多模態(tài)模型中確實坐擁王者之位。Step3所展現(xiàn)的,是一個真正能「看懂」并「理解」物理世界的AI助手雛形。
順帶一提,在測試Step3的過程中,我們還驚喜地發(fā)現(xiàn)了階躍AIApp上一個被許多用戶忽視的功能:智能視頻通話。在該功能下,用戶只需在App內(nèi)開啟攝像頭,手機便化身為一個強大的智能視覺助手。
我們實測發(fā)現(xiàn),實時視覺理解能力非常驚艷!比如在下面這個案例中,階躍AI不僅迅速識別出了這款桌游名叫「Splendor(璀璨寶石)」,還準確地闡述了其背景信息。
當一只好奇的貓突然闖入鏡頭,占據(jù)游戲盒時,我們實時打斷了Step3的介紹并發(fā)問。模型無縫切換了對話,并圍繞這位「不速之客」給出了一些頗為有趣且有用的建議,展現(xiàn)了其強大的實時多模態(tài)對話與打斷能力。
深度拆解
Step3是如何誕生的?
那么,如此「多開好省」的Step3究竟是如何煉成的呢?翻開Step3的系統(tǒng)和架構技術報告,我們可以看到答案并非單一技術的突破,而是源于一套完整且自洽的技術棧,涵蓋了從底層原創(chuàng)架構到高層系統(tǒng)協(xié)同的全鏈路創(chuàng)新。
技術報告:Step-3isLargeyetAffordable:Model-systemCo-designforCost-effectiveDecoding報告地址:https://github.com/stepfun-ai/Step3/blob/main/Step3-Sys-Tech-Report.pdf
首先,底層架構上,Step3采用了階躍星辰原創(chuàng)的MFA架構,即Multi-matrixFactorizationAttention(多矩陣分解注意力)。該架構在設計之時就兼顧了效率與性能,其中的創(chuàng)新之處包括增加注意力頭的數(shù)量和維度、采用激進的低秩分解策略以及采用單鍵值(QK)頭設計。這樣一來,MFA架構既能最大限度地節(jié)省資源,又能盡可能接近理論性能上限。
MFA和MFA-KR架構與MQA/GQA架構的比較
Step3使用的MFA還專門針對國產(chǎn)芯片進行了優(yōu)化。這是MFA架構最關鍵的亮點之一。針對國產(chǎn)芯片在制程和HBM(高帶寬顯存)限制下,算力與顯存帶寬受限的普遍痛點,MFA進行了專門優(yōu)化。其計算密度(128倍于KV訪存量)完美匹配國產(chǎn)芯片的特性,避免了主流架構MLA(需要巨大算力)和GQA(需要巨大訪存)在國產(chǎn)芯片上會遭遇的計算瓶頸或訪存瓶頸。
技術數(shù)據(jù)顯示,在同尺寸和同等激活參數(shù)量下,Step3的MFA架構所需絕對KV量僅為QwenGQA的1/3,絕對計算量僅為DeepSeekMLA的1/4。這使得Step3在國產(chǎn)芯片上的運行成本甚至比DeepSeek和Qwen在高端芯片上更低!這能真正從底層技術上助力國產(chǎn)芯片與國際頂尖芯片同臺競技。
更高層級上,Step3采用了MoE(混合專家)架構,總參數(shù)量為321B(其中LLM的參數(shù)量316B,視覺編碼器的參數(shù)量5B),激活參數(shù)量則達到38B
Step3模型卡
這一規(guī)??纱_保其算法效果與DeepSeek(激活37B)相當,并強于Qwen(激活22B)。
更重要的是,階躍星辰還進一步對MoE的部署進行了深度優(yōu)化:
先進的分布式推理:階躍星辰實現(xiàn)了一套比DeepSeek的「大EP」模式更先進的分布式推理方案Attention-FFNDisaggregation(AFD),針對Attention和FFN的計算特點,分別分配給內(nèi)存帶寬大和算力強的GPU集群,實現(xiàn)資源精準匹配,從而進一步壓縮成本。該方案可配合分享通信庫的參考實現(xiàn),無需依賴英偉達特有的IBGDA等功能,因此對各類國產(chǎn)芯片廠商更加友好。網(wǎng)絡部署友好:AF分離方案相比大EP,可用相對較小的部署規(guī)模,較好地緩解了大規(guī)模部署時跨ToR的網(wǎng)絡抖動問題。
在32k上下文長度下,每個解碼token的計算和內(nèi)存理論使用量
正是在原創(chuàng)MFA架構、高效MoE方案以及軟硬件協(xié)同創(chuàng)新的共同作用下,Step3最終得以「多開好省」的王者姿態(tài)呈現(xiàn)在世人面前。
模態(tài)方面,作為業(yè)內(nèi)享有盛譽的「多模態(tài)卷王」,階躍星辰這一次又在這個賽道上卷到了新的高度。Step3是階躍星辰首個全尺寸的原生多模態(tài)推理模型,具備強大的視覺理解能力。Step3同時還有強大的推理能力,是開源模型中少有的即支持多模態(tài)又能深度推理的大模型。
源方面,繼DeepSeek系列模型、Qwen系列模型以及KimiK2之后,Step3作為又一強大的開源模型,在獨特的多模態(tài)賽道上為國產(chǎn)AI再次贏得了榮譽。
接下來的,自然是性能卓越,Step3用SOTA成績證明了自己。在MMMU、MathVision等多個權威多模態(tài)基準上,其成績超越了ERINE4.5、GLM-4.1V-thinking等一眾開源模型。
最后,在至關重要的方面,通過AFD等一系列極致的優(yōu)化,階躍星辰用Step3交出了一份驚人的答卷!
根據(jù)原理分析,Step3在國產(chǎn)芯片上的推理效率最高可達DeepSeek-R1的300%,且對所有芯片友好;在基于NVIDIAHopper架構的芯片進行分布式推理時,實測Step3相較于DeepSeek-R1的吞吐量提升超70%。
這一切并非通過補貼或犧牲性能實現(xiàn)的「價格戰(zhàn)」,而是通過提升解碼效率等核心技術創(chuàng)新帶來的、可持續(xù)的成本效益革命。
事實上,Step3的橫空出世并非一日之功,而是階躍星辰在技術路線上長期積累與迭代的必然結果。回顧其Step系列基座模型的發(fā)展歷程,我們可以清晰地看到一條從夯實基礎、探索深度智能到聚焦商業(yè)化效率的進化路徑。
這一切始于,這是階躍星辰自主研發(fā)的千億參數(shù)語言大模型,其性能全面超越GPT-3.5,為公司奠定了堅實的技術基石。之后,采用MoE架構的Step-2將探索的重點轉向深度智能,成為國內(nèi)首個由創(chuàng)業(yè)公司發(fā)布的萬億參數(shù)語言大模型,在多種任務的體感上全面逼近GPT-4,并曾在「最難LLM評測榜單」LiveBench上拿下中國第一、全球第五的佳績。
從Step-1對標GPT-3.5到Step-2對標GPT-4,正是這些在模型架構、算法與系統(tǒng)上的持續(xù)創(chuàng)新與深厚積累,最終成為Step-3在推理時代實現(xiàn)極致的商業(yè)化效能的有效支撐。
NotJustOneMoreThing
階躍星辰可以更高調(diào)
在過去兩年多的時間里,由微軟前全球副總裁姜大昕博士創(chuàng)立的階躍星辰,雖憑借其強大的模型矩陣被業(yè)內(nèi)冠以「多模態(tài)卷王」的美譽,但其行事風格整體不算高調(diào)。
但這一次,隨著開源Step3的震撼發(fā)布,「階躍星辰StepFun」這個名字注定將成為AI社區(qū)的一個熱詞。更重要的是,在本次發(fā)布會上,我們看到的遠不止Step3這一個模型。正如那句經(jīng)典的「OneMoreThing」,階躍星辰展示了其在技術生態(tài)與商業(yè)化落地上同樣宏大的布局。
第一個OneMoreThing是階躍星辰攜手華為昇騰、沐曦、壁仞科技、燧原科技、天數(shù)智芯、無問芯穹、寒武紀、摩爾線程、硅基流動等10家芯片及基礎設施廠商,共同發(fā)起「模芯生態(tài)創(chuàng)新聯(lián)盟」。
這個堪稱「豪華朋友圈」的聯(lián)盟的意義遠超一次簡單的站臺。它代表了一種更深層的行業(yè)思考:要真正推動大模型的普及,僅靠模型廠商之間的API「價格戰(zhàn)」遠遠不夠,根本路徑在于通過模型與芯片廠商的底層協(xié)同創(chuàng)新,真正可持續(xù)地降低成本。Step3模型對國產(chǎn)芯片的深度適配和極致的效率優(yōu)化,可以說正是這一模式下誕生的首個碩果,它不僅讓自身更具應用性,也為整個國產(chǎn)算力生態(tài)的發(fā)展注入了強心劑。
第二個OneMoreThing是一份極其亮眼的「商業(yè)化半年報」。
主要得益于在智能終端Agent領域(手機和汽車)的率先布局和量產(chǎn)落地,階躍星辰的商業(yè)化應用在2025年增長迅猛。階躍星辰開放平臺數(shù)據(jù)顯示,2025年上半年來自智能終端的多模態(tài)模型調(diào)用次數(shù)和調(diào)用量,較去年下半年環(huán)比增長均超過800%。預計階躍星辰年內(nèi)收入將接近10億元!
在手機領域,Top10國產(chǎn)手機廠商中過半已和階躍星辰達成合作。其多模態(tài)能力已落地多個智能手機品牌的量產(chǎn)旗艦機型,陪伴著上億人的日常生活。在汽車領域,其端到端語音大模型在吉利銀河M9上實現(xiàn)行業(yè)首發(fā)上車,并聯(lián)合發(fā)布了新一代智能座艙AgentOS(預覽版)。在具身智能和IoT領域,階躍星辰也已經(jīng)與一些頭部廠商建立了合作關系。
從深耕技術到廣積糧草,再到如今手握王牌模型、聯(lián)合生態(tài)伙伴并交出亮眼的商業(yè)答卷;這一次,一向「埋頭做事」的階躍星辰,完全有理由、也理應更高調(diào)。
從多模態(tài)卷王到推理時代的「最優(yōu)解」
在過去一年多的時間里,階躍星辰憑借其驚人的迭代速度和全面的模型矩陣,被業(yè)界冠以「多模態(tài)卷王」的稱號。截至今天,其發(fā)布的26款模型中有多達20款是多模態(tài)模型,在整體基座模型中占比超過七成,且在多個權威榜單上名列前茅。
而Step3的發(fā)布,清晰地標志著這位「卷王」已進入新的戰(zhàn)略層次。它不再僅僅是展示肌肉、追求單一維度的技術領先,而是將目光投向了整個行業(yè)最核心、最迫切的痛點:在AI全面進入應用的「推理時代」,如何提供一個真正好用、普惠且強大的商業(yè)化模型。
階躍星辰給出的答案就是Step3。它并非簡單的打榜模型,而是一個試圖將多模態(tài)能力(多)、開源生態(tài)(開)、頂尖性能(好)與極致效率(省)四個關鍵維度進行完美融合的「最優(yōu)解」。通過填補「好用且開源的多模態(tài)推理模型」這一市場空白,它為萬千開發(fā)者和企業(yè)提供了一個無需在性能與成本、開放與能力之間艱難取舍的全新選擇。
更重要的是,階躍星辰選擇了一條更艱難但更具長期價值的路徑。相較于容易引發(fā)惡性競爭的API價格戰(zhàn),其聯(lián)合芯片及基礎設施廠商成立「模芯生態(tài)創(chuàng)新聯(lián)盟」致力于通過「模型和系統(tǒng)聯(lián)合創(chuàng)新」的模式,從根本上推動技術普及和成本降低。這不僅展現(xiàn)了其作為技術公司的格局,也為行業(yè)探索出一條更可持續(xù)的良性增長之路。
從「卷王」到「解題者」,階躍星辰用Step3證明了其對產(chǎn)業(yè)的深刻洞察。這不僅是一家AI公司技術實力的體現(xiàn),更標志著其走向商業(yè)成熟的決心,也就是為市場打造一個真正有誠意、有價值、用得起的大模型
文中視頻鏈接:https://mp.weixin.qq.com/s/t9HAQG6WD3BPwg95d4Y8Fw
延伸閱讀:與 “性能”S:OTA開源多模態(tài)?推理之王 的相關文章