魚羊發(fā)自凹非寺量子位|公眾號QbitAI
卷瘋了,通義千問真的卷瘋了。
Qwen3-Coder剛炸完場,就隔了一天,馬上全新開源Qwen3系列最強推理模型——Qwen3-235B-A22B-Thinking-2507。
怎么個最強法?一登場,再次刷新SOTA,在各項測評中一舉拿下「全球最強開源模型」寶座,比肩頂級閉源模型Gemini-2.5Pro、o4-mini。
國外網(wǎng)友都饞哭了:
關(guān)鍵是,就在這短短一周里,算上前兩天開源的新基礎(chǔ)模型Qwen3-235B-A22B-Instruct-2507(非思考版),和Qwen3-Coder,通義千問是完成了一波開源三連。
開源還不算,各個出手即SOTA:接連斬獲基礎(chǔ)模型、編程模型、推理模型三項全球開源最強。
這個模型更新強度和效能提升,妥妥地引領(lǐng)全球了。
就問小扎慌不慌(doge)。
新版Qwen3推理模型,登頂全球開源最強
正如DeepSeekR1是在V3基礎(chǔ)上打造的推理模型,Qwen3全新推理模型,是基于Qwen3-235B-A22B打造——就是235B參數(shù)那版MoE,激活參數(shù)22B。
官方表示,新推理模型主要提升了3方面的核心能力:
邏輯推理、數(shù)學、科學和編碼等任務(wù)上性能顯著提升;能更好地遵循指令、使用工具、生成文本;支持256K原生上下文,適用于高度復(fù)雜的推理任務(wù)。
而此番刷新SOTA,登頂開源最強,確實不是那種一丟丟提升,仔細看測評分數(shù),那是「真有點東西」。
先來看推理方面。
在超高難度測試「人類最后的考試」中,最新的2507版推理模型,相較4月底初發(fā)布的Qwen3推理模型,分數(shù)從11.8分提升到了18.2分。
超過了DeepSeek-R1-0528的17.7分,和OpenAIo4-mini在高性能推理模式下拿到的18.1分。
編程方面,在LiveCodeBenchv6和CFEval中,Qwen3新推理模型甚至超越了Gemini-2.5Pro等閉源業(yè)界標桿,刷新SOTA。
除此之外,在知識、對齊、智能體、多語言等基準評測中,Qwen3新推理模型都有比肩閉源模型的表現(xiàn),達到開源SOTA。
紙面上的成績屬實是相當優(yōu)秀,那么具體使用起來,這個新推理模型表現(xiàn)又會如何?
我們也簡單測試了一下。
還是那道經(jīng)典題:7米長的甘蔗如何通過2米高1米寬的門?
Qwen3-235B-A22B-Thinking-2507思考了43秒,最后給出的答案是:
思考過程如下:
相較之下,o4-mini的答案就簡單粗暴了些。
模型三連開源,摘下三項SOTA
前面也說到,全新推理模型,其實是本周阿里開源第三彈。
總結(jié)起來畫風其實是醬嬸的:
前兩彈震得大家伙腦袋嗡嗡的,各種實測部署正上頭呢,通義實驗室的卷王們啪地又甩出了一對王炸。
就說Qwen3-Coder,開源即刷新AI編程SOTA——不僅在開源界超過DeepSeekV3和KimiK2,連業(yè)界標桿、閉源的ClaudeSonnet4都比下去了。
網(wǎng)友們實測起來,小球彈跳效果是這樣的:
HuggingFace首席執(zhí)行官ClementDelangue、Perplexity首席執(zhí)行官AravindSrinivas等大佬都第一時間加入了討論、點贊:
這是開源的勝利。
Qwen3-Coder火爆,帶動阿里千問API調(diào)用量暴漲。
海外知名模型API聚合平臺OpenRouter數(shù)據(jù)顯示,阿里千問API調(diào)用量過去幾天已突破1000億Tokens,在OpenRouter趨勢榜上包攬全球前三,是當下最熱門的模型。
基礎(chǔ)模型領(lǐng)域,Qwen3最新版本——Qwen3-235B-A22B-Instruct-2507(非思考版)也登頂全球開源第一,在GPQA(知識)、AIME25(數(shù)學)、LiveCodeBench(編程)、Arena-Hard(人類偏好對齊)、BFCL(Agent能力)等眾多測評中表現(xiàn)出色,超越Claude4(Non-thinking)等領(lǐng)先閉源模型。
中國開源,卷到了世界最前沿
三連開源,連摘三冠,對于中國開源力量而言,或許還只是一個開端。
有一說一,打從DeepSeek爆火、Llama4翻車,要說開源領(lǐng)域哪股勢力最為活躍,成為新的風潮引領(lǐng)者,還得看神秘的東方力量。
每有開源新王誕生,DeepSeek、Qwen、Kimi……看來看去,還是madeinChina。
「中國確實將開源提升到了一個新高度」,越來越多地被討論、被贊同。
關(guān)鍵是,正如黃仁勛最新一次在北京所說,開源模型方面,「中國發(fā)展速度極快」。
以Qwen為例,目前,阿里已開源300余款通義大模型,通義千問衍生模型突破14萬個,已經(jīng)真真正正超越此前的全球開源老大Llama系列,成為全球第一開源模型家族。
阿里方面透露,未來三年,阿里巴巴還將投入超過3800億元用于建設(shè)云和AI硬件基礎(chǔ)設(shè)施,持續(xù)升級全棧AI能力。
更重要的是,開源和閉源的差距也正在這種中國速度中被壓縮。
增長曲線的交叉點何時出現(xiàn)?尚未可知,但國產(chǎn)模型的身位已經(jīng)實實在在排在了全球最前沿。
—完—