唐慕梅
衡宇發(fā)自凹非寺量子位|公眾號(hào)QbitAI
推理模型和具身智能,絕對是今年WAIC上最搶眼的存在。
一個(gè)搶占了現(xiàn)階段AI發(fā)展的話語權(quán),一個(gè)是外界給予重望的“下一件有形之物”——尤其是推理模型這條線,逛展剛第二天,我的腦子已經(jīng)有點(diǎn)“轟炸過載”了。
當(dāng)迷失在各家的最新推理模型性能指標(biāo)之中時(shí),一個(gè)念頭突然冒了出來。我把這個(gè)念頭寫在這里,同時(shí)也是想問問各位朋友們:
什么樣的推理模型,能稱得上真正好用?
在我這里,答案或許是:
多模態(tài),推理強(qiáng),用得起,最好還是開源的。
幾句話說起來簡單,但真能兼顧這幾點(diǎn)的模型,在市場上幾乎處于空缺狀態(tài)。
直到我發(fā)現(xiàn)了階躍星辰在WAIC期間發(fā)布的新一代基礎(chǔ)大模型Step3——市場上的這個(gè)空缺,終于被填上了。
Step3是一個(gè)總參數(shù)321B的MoE模型,具備多模態(tài)推理能力,將于下周四(7月31日)正式開源。
在MMMU等多個(gè)多模態(tài)榜單上,它一現(xiàn)身就取得了開源多模態(tài)推理模型新SOTA的成績。
更重要的是,Step3不是單純追求效果的“學(xué)術(shù)卷”,階躍稱這款模型兼顧智能與效率。
實(shí)測顯示,Step3的推理解碼成本僅為DeepSeek的1/3,且效率更高;在國產(chǎn)芯片上的跑分更是一騎絕塵,推理效率最高可達(dá)DeepSeek-R1的300%。
多模態(tài)卷王的新SOTA“四字訣”
過去一年,行業(yè)在變。
生成式AI步入推理時(shí)代后,多模態(tài)模型全面涌現(xiàn),推理能力成為新焦點(diǎn),開源成為廠商和用戶的首選考量。
與此同時(shí),各個(gè)榜單里更替速度極快的高排名,不再是衡量一個(gè)模型性能的唯一定論。效率、成本、部署友好性,都成為綜合考察點(diǎn)的一部分。
階躍看到了這些現(xiàn)象和趨勢,并直接在Step3身上體現(xiàn)了自己對這些需求的回應(yīng)。
階躍將其概括為四字訣:多、開、好、省。
這也是階躍對“什么是真正好用的推理模型”簡短有力的回應(yīng)。
多
多,指多模態(tài)。
是的,Step3依舊是熟悉的階躍味道——它是個(gè)多模態(tài)模型。
Step3是一個(gè)321B參數(shù)的視覺語言模型(VLM),激活參數(shù)38B。其架構(gòu)包含獨(dú)立的視覺編碼器(5B參數(shù))和語言模型(316B參數(shù))。
多模態(tài)卷王之所以還在多模態(tài)這條路上卷,是因?yàn)殡A躍觀察到,多模態(tài)對用戶來說才是剛需。
“數(shù)學(xué)和代碼是各大榜單最喜歡測試模型能力的方向。”階躍星辰創(chuàng)始人、CEO姜大昕表示,就連測試Step3的時(shí)候,都免不了會(huì)選擇相關(guān)測試集,“但實(shí)際應(yīng)用場景中,用戶并不需要這個(gè)模型是個(gè)數(shù)學(xué)奧賽金牌選手,我們往往需要的是一個(gè)能說會(huì)看的模型?!?/p>
作為階躍首個(gè)全尺寸原生多模態(tài)推理模型,Step3擁有強(qiáng)大的視覺感知和復(fù)雜推理能力,可準(zhǔn)確完成日常生活中的各類視覺分析問題。
比如,只報(bào)上身高體重,然后丟給它商場中某品牌褲子的標(biāo)簽,問自己能不能穿。
它成功識(shí)別出了品牌,還因?yàn)樘釂栔袥]有清晰表示提問的“我”是男是女,于是分情況進(jìn)行了分析和回答:
日常生活外,跨領(lǐng)域的復(fù)雜知識(shí)理解、數(shù)學(xué)與視覺信息的交叉分析也不在Step3的話下。
現(xiàn)在,階躍AIApp和網(wǎng)頁(stepfun.com)上,所有普通用戶都已經(jīng)能體驗(yàn)到Step3的多模態(tài)推理能力。
尤記得今年2月,也是在上海,階躍承諾將在多模態(tài)推理領(lǐng)域持續(xù)深耕,如今放出Step3,也算是對這個(gè)承諾的階段性兌現(xiàn)。
開
25日,Step3公開發(fā)布,并承諾于7月31日正式開源。
這一舉打破了市場上“強(qiáng)模型不開源,開源模型不強(qiáng)”的尷尬局面。
瞥了一眼,GitHub上的項(xiàng)目倉已經(jīng)建好了~
雖然“willbereleasedsoon”,但已經(jīng)107顆星星在手,nice。
好
這個(gè)“好”字,姜大昕作出如下解釋:
模型不僅要知識(shí)豐富,善解人意,還要有這個(gè)嚴(yán)謹(jǐn)?shù)倪壿嬐评砟芰Α?/p>
如他所述,尤其是從今年上半年開始,強(qiáng)推理能力已經(jīng)成為新一代模型的標(biāo)配。
給它一張沒有任何文字信息的WAIC現(xiàn)場實(shí)拍圖,它一眼就看出吃瓜群眾圍得里三層外三層,是為了看右下角兩個(gè)戴著頭盔的機(jī)器人在拳擊。
再追問,Step3甚至能根據(jù)場館布置特色和風(fēng)格,推測出這是發(fā)生在WAIC上的一幕:
省
“該省省,該花花”這套生活哲學(xué),終于也被活學(xué)活用到大模型身上了。
“省”字對應(yīng)的其實(shí)是所有用戶——無論是企業(yè)還是開發(fā)者——最樸實(shí)無華的需求:在模型能力足夠好的前提下,成本要盡可能地降低。
Step3給出的解決方案是系統(tǒng)協(xié)同設(shè)計(jì)(Model-systemCo-design),即重點(diǎn)通過模型系統(tǒng)架構(gòu)的創(chuàng)新來提升解碼效率并降低推理成本。
這里關(guān)鍵介紹兩點(diǎn)創(chuàng)新:
一個(gè)是系統(tǒng)層的AFD分布式推理系統(tǒng)。
傳統(tǒng)情況下,模型關(guān)于Attention和FNN的推理計(jì)算任務(wù),會(huì)交給同一組GPU同時(shí)處理,常常導(dǎo)致資源浪費(fèi)。
AFD全稱為Attention-FFNDisaggregation,它的做法是將Attention和FNN拆開,使兩者在獨(dú)立子系統(tǒng)中運(yùn)行,實(shí)現(xiàn)分布式推理和流水線優(yōu)化。
這樣一來,Attention和FNN可以分別部署到不同GPU集群,避免專家負(fù)載不均和網(wǎng)絡(luò)擁堵問題,顯著提升解碼效率。
實(shí)驗(yàn)結(jié)果表明,AFD分布式推理系統(tǒng)優(yōu)于與DeepSeek-V3采用的專家并行方案DeepSeekEP。
另一個(gè)創(chuàng)新是模型層的MFA注意力機(jī)制。
MFA全稱Multi-MatrixFactorizationAttention。其實(shí)早在去年年底,階躍就在Step-2的基礎(chǔ)上首次公開發(fā)布了MFA機(jī)制。
它是一種硬件感知的低秩注意力設(shè)計(jì),通過矩陣分解優(yōu)化KV緩存和計(jì)算效率,同時(shí)保持高注意力表達(dá)力。
技術(shù)報(bào)告顯示,Step3的KV緩存大小小于DeepSeek-V3,更適用于長上下文場景。
值得注意的是,MFA的算術(shù)強(qiáng)度控制在128,這是一個(gè)權(quán)衡結(jié)果——高于H20的74,避免內(nèi)存墻;又低于H800的591,避免算力浪費(fèi)。
這個(gè)設(shè)計(jì)直接帶來三個(gè)結(jié)果:跨硬件兼容性、成本優(yōu)勢擴(kuò)大、長上下文彈性。
同時(shí),Step3支持FP8全量化,將內(nèi)存訪問減半并兼容“低比特存儲(chǔ)-高比特計(jì)算”方案,進(jìn)一步降低延遲。
系統(tǒng)層和模型層兩處創(chuàng)新,二者協(xié)同,讓Step3僅使用32張HopperGPU,吞吐量就達(dá)到4039tokens/GPU/s;而DeepSeek官方數(shù)據(jù)顯示,使用128張HopperGPU的DeepSeek-V3,官方吞吐量為2324tokens/GPU/s。
一套操作下來,最終達(dá)到的效果是這樣的——
在A800上,Step3的成本低于所有同類模型;在H20上,Step3的成本僅有DeepSeek-V3的30%。
整體看下來,在SOTA已經(jīng)不是驚艷四座新鮮事的現(xiàn)在,Step3給推理時(shí)代的大模型SOTA提供了一個(gè)新的定義:
既是最強(qiáng),又是最值。
Step3可稱作“開源”“多模態(tài)”“推理”“SOTA”四角俱全的代表——被行業(yè)里叫做多模態(tài)卷王,不是沒道理。
推理落地難,軟、硬、Infra一起卷
Step3無愧于階躍多模態(tài)推理模型新旗艦,但是——
如果沒有配套的算力環(huán)境,即便Step3再好,也可能只是高處不勝寒。
真正讓它落地有聲的,是產(chǎn)業(yè)鏈的聯(lián)合進(jìn)化。
過去模型落地??ㄔ趦蓚€(gè)點(diǎn),一個(gè)是API價(jià)格太高,一個(gè)是國產(chǎn)卡推不動(dòng)。
但誰都知道,API價(jià)格戰(zhàn)固然能帶來一時(shí)普及,唯有在模型與系統(tǒng)架構(gòu)上實(shí)現(xiàn)本質(zhì)性突破,才能支撐AI長久可持續(xù)地走進(jìn)日常與產(chǎn)業(yè)。
為了打破推理大模型普及最大瓶頸——成本,階躍不靠API價(jià)格戰(zhàn),而是朝硬件下手,推動(dòng)模型和算力層協(xié)同發(fā)展。
在設(shè)計(jì)之初,Step3就考慮了國產(chǎn)芯片適配。
Step3的友好,是對所有芯片友好。
目前,華為昇騰已首先實(shí)現(xiàn)Step3的搭載和運(yùn)行;沐曦、天數(shù)智芯和燧原等也已初步實(shí)現(xiàn)運(yùn)行Step3。
敲黑板,這里提到的適配的不是閹割版,而是在完整多模態(tài)能力下實(shí)現(xiàn)高性價(jià)比推理。
更棋高一著的事情是,為了進(jìn)一步打通上下游,階躍聯(lián)合近10家芯片及基礎(chǔ)設(shè)施廠商發(fā)起“模芯生態(tài)創(chuàng)新聯(lián)盟”。
據(jù)了解,該聯(lián)盟是一個(gè)打通了芯片、模型、Infra完整技術(shù)鏈路的創(chuàng)新生態(tài)體系。
Step3發(fā)布當(dāng)天,該聯(lián)盟公開的首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數(shù)智芯、無問芯穹、寒武紀(jì)、摩爾線程、硅基流動(dòng)等。
姜大昕表示,階躍會(huì)從底層和各個(gè)芯片、Infra伙伴進(jìn)行聯(lián)合創(chuàng)新,提升模型適配性和算力應(yīng)用效率。
芯片廠提供可落地的推理算力,模型廠做硬件友好的模型架構(gòu),Infra平臺(tái)做高效調(diào)度、服務(wù)部署與推理加速,最終實(shí)現(xiàn)推理能用、成本可控、國產(chǎn)芯片跑得起來。
終端智能Agent落地成果豐碩,2025全年預(yù)計(jì)收入沖刺10億
如果說模型能力是基礎(chǔ)盤,那么應(yīng)用落地就是成敗的分水嶺。
在這方面,階躍的表現(xiàn)可以說是:多模態(tài)推理模型能跑的地方,它都跑過了。
尤其是在終端智能Agent方向,階躍已經(jīng)形成清晰的落地節(jié)奏,且來自汽車、手機(jī)、具身智能、IoT等領(lǐng)域的客戶都很買單。
在這兩天的WAIC上,展示場景落地能力的階躍展臺(tái),也是被人從眾爭相圍觀體驗(yàn)的熱門展位。
看到上圖左下角這個(gè)蛋艙沒?
這就是搭載了階躍多模態(tài)模型能力的下一代智能座艙,能感知用戶狀態(tài),記住車主偏好,開啟人機(jī)共駕時(shí)代。
而在離我們當(dāng)下現(xiàn)實(shí)生活更近的汽車端,可以看看旁邊的吉利銀河M9。
它首發(fā)搭載階躍星辰端到端語音大模型——這是行業(yè)內(nèi)端到端語音大模型首次實(shí)現(xiàn)量產(chǎn)上車。
手機(jī)是階躍Agent終端落地的另一個(gè)重點(diǎn)場景。
它使用人群最廣泛、占據(jù)我們?nèi)粘W畲笫褂脮r(shí)長,因此也是一個(gè)更普惠所有用戶的場景。
階躍官方表示,目前,國內(nèi)Top10手機(jī)廠商過半都已接入階躍的多模態(tài)能力,OPPO、榮耀、中興的旗艦機(jī)型都已搭載適配。
一方面通過高效推理降低了端側(cè)的功耗壓力,另一方面真正做到了在本地實(shí)現(xiàn)AI伴聊“AI視頻通話搭子”、記錄手機(jī)碎片化信息的“AI記憶收納師”等功能。
說適配搭載階躍能力的手機(jī)是每個(gè)人的隨身Agent,并不夸張。
大模型很熱,但很多時(shí)候熱在人們的交談里,熱在媒體的報(bào)道里,或者只是熱在你爭我奪的各種榜單上。
而階躍,已經(jīng)讓多模態(tài)大模型可用、可跑、可部署、可落地。
這就讓它成為當(dāng)前基礎(chǔ)模型賽道中,少數(shù)幾個(gè)具備清晰商業(yè)化路徑和收入規(guī)模的玩家之一。
據(jù)階躍方面透露,2025年全年預(yù)計(jì)收入近10億人民幣。
此次發(fā)布的Step3,是階躍在推理模型當(dāng)?shù)赖默F(xiàn)在,給出的一套系統(tǒng)性打法。
它其實(shí)不是天降神兵般突然出現(xiàn)的一個(gè)兼顧智能與效率的多模態(tài)推理模型,而是階躍一路卷來,鉆研技術(shù)與工程,又洞悉市場需求的一份答卷。
而且它靠著“多開好省”四字秘訣,一腳踹開了推理模型商用落地的那扇門。
沒錯(cuò)哦,當(dāng)別人還只在卷參數(shù)卷指標(biāo),階躍已經(jīng)開始算收入了;別人還在拼一張張榜單,Step3已經(jīng)裝進(jìn)了車?yán)?、手機(jī)里、機(jī)器人里。
最強(qiáng)模型的牌面總在刷新,最強(qiáng)的皇冠王座可以輪換,但市場不會(huì)撒謊。
那些真正好用、能落地、能適配的模型才是開發(fā)者和企業(yè)長久追著找的剛需款。
在一輪輪淘汰賽之后,誰是AI產(chǎn)業(yè)的長期務(wù)實(shí)性選項(xiàng),已經(jīng)越來越清楚了。
Step3的“多開好省”聽著像是口號(hào),實(shí)則可能是一道選擇題:
你想做SOTA的路過者,還是能跑進(jìn)終端、留在產(chǎn)業(yè)線里的長跑者?
階躍已經(jīng)選了它的答案。
你呢?
會(huì)說話的人,一開口就贏了!10本幫助我們成就高情商和好口才
3. 《好好說話第一步》——傾聽比說話更重要高情商的本質(zhì)是理解他人|_。這本書教你放下自我,專注傾聽“字面意思”背后的情緒與需求。比如用“復(fù)述+共情”技巧,瞬間拉近關(guān)系_。4. 《掌控談話》——FBI談判專家的實(shí)戰(zhàn)秘籍從生死談判到日常溝通,書中9大策略覆蓋所有場景——|。比如“標(biāo)注法”化解沖突,“校準(zhǔn)問題”引導(dǎo)有幫助請點(diǎn)贊-。
演講與口才訓(xùn)練書籍,推薦十本說話的書讓你明白口才好不是天生的
1、《好好說話第一步:學(xué)會(huì)傾聽》提高說話技巧的書有哪些?這本《好好說話第一步:學(xué)會(huì)傾聽》一定要好好推薦一下,作者尼可斯博士是威廉瑪麗學(xué)院的心理學(xué)教授,有著三十多年的心理咨詢和家庭治療的臨床經(jīng)驗(yàn)_。書中不僅深入系統(tǒng)地向我們闡述了傾聽對于關(guān)系的重要性,也提出了具體的使用技巧,同時(shí)添加了簡單實(shí)用的練習(xí),..
提升情商和說話技巧,2025必讀的10本實(shí)用經(jīng)典書籍!
來源:紅網(wǎng)
作者:象夢菲
編輯:運(yùn)佳惠
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。