智東西作者李水青編輯漠影
智東西7月25日報道,昨日晚間,阿里又又又開源了!
阿里通義千問團隊正式推出Qwen3-235B-A22B推理模型的升級版本:Qwen3-235B-A22B-Thinking-2507。
▲Qwen3-235B-A22B-Thinking-2507開源頁面截圖
該模型擁有235B參數(shù),激活參數(shù)為22B,支持256K上下文,在編程、數(shù)學、知識、推理、人類偏好對齊等多項能力測評中得分比肩Gemini-2.5pro、o4-mini等頂尖閉源模型,大幅超越DeepSeek-R1等開源模型,創(chuàng)下全球開源模型SOTA(最佳性能表現(xiàn))。
▲Qwen3-235B-A22B-Thinking-2507的部分測評表現(xiàn)
一周之內(nèi),阿里已用三款最新模型橫掃全球權(quán)威測評,分別斬獲基礎模型、編程模型、推理模型等主流領域的三項全球開源冠軍。其中,7月23日開源的最強編程模型Qwen3-Coder-480B-A35B-Instruct在全球開發(fā)圈引起了一陣熱潮,連推特、HuggingFace的創(chuàng)始人及CEO都發(fā)文推薦。
▲推特創(chuàng)始人杰克·多爾西點贊Qwen3-Code
接連開源動作背后,阿里通義千問已成“最聽勸”團隊。Qwen非思考模型的推出就是接受了開發(fā)者的建議?!敖?jīng)過與社區(qū)溝通和深思熟慮,我們決定停止使用混合思考模式。相反,我們將分別訓練Instruct和Thinking模型,以獲得最佳質(zhì)量?!盦wen團隊在X平臺上寫道。
▲Qwen非思考模型的推出就是接受了開發(fā)者的建議
“開發(fā)者需要什么,千問就開源什么”,面對如此聽勸的通義千問團隊,催更成為開發(fā)者的常態(tài)。昨日Qwen3-235B-A22B-Thinking-2507剛剛發(fā)布,就有開發(fā)者在千問相關負責人JunyangLin的X平臺下催更這一模型的更小尺寸版本,對此JunyangLin也下場回復:“下周是‘flash’周?!?/p>
▲千問相關負責人回應開發(fā)者催更
目前,Qwen3-235B-A22B-Thinking-2507已在魔搭社區(qū)、HuggingFace開源,采用極寬松的Apache2.0開源協(xié)議,人人均可免費下載商用。用戶也可以通過QwenChat體驗該模型。
▲用戶可在QwenChat選擇使用該模型
QwenChat體驗地址:chat.qwen.ai魔搭社區(qū)地址:https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507HuggingFace地址:https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
一、全面趕超DeepSeek,比肩OpenAIo3
昨夜,Qwen3-235B-A22B-Thinking-2507模型一經(jīng)發(fā)布,立馬在全球范圍內(nèi)收獲了極高熱度。社交平臺X上不少網(wǎng)友點贊分享,有網(wǎng)友稱:“這還是我第一次看到名副其實的‘思考模式’!”有人贊嘆:“基準測試成績令人印象深刻!”
▲X網(wǎng)友評價Qwen3-235B-A22B-Thinking-2507
來看看測試情況。如下圖所示,最亮眼的應該是編程能力的LiveCodBenchV6的成績,從5月發(fā)布的Qwen3的55.7分提升到了現(xiàn)在74.1分。另外知識能力測試SuperGPQA和推理能力測試HMMT25也都是目前的最高分。
▲Qwen3-235B-A22B-Thinking-2507測評情況(圖源:HcoresLLMArena)
具體來看,在知識方面,Qwen3-235B-A22B-Thinking-2507在MMLU-Redux、GPQA、SuperGPQA的測試中均超越了DeepSeek-R1-0528,并且得分逼近OpenAIo3、Gemini-2.5Pro等頂尖閉源模型。
在推理方面,Qwen3-235B-A22B-Thinking-2507在AIME25、HMMT25、LiveBenc、HLE幾項測試中得分都碾壓Deepseek-R1-0528、OpenAIo3、Claude4OpusThinking。
在編碼方面,Qwen3-235B-A22B-Thinking-2507在LiveCodeBenchv6、CFEval、OJBench等測試中全面超越Deepseek-R1-0528、OpenAIo4-mini、OpenAIo3。
在一致性方面,Qwen3-235B-A22B-Thinking-2507在WritingBench測試中趕超了開源模型Deepseek-R1-0528以及OpenAIo3、Gemini-2.5Pro等閉源模型,在IFEval、CreativeWritingv3等測試方面也接近OpenAIo3、Gemini-2.5Pro的水平。
在Agent方面,Qwen3-235B-A22B-Thinking-2507在BFCL-v3、TAU2-Retail等測試中得分接近OpenAIo3,趕超了Deepseek-R1-0528、OpenAIo4mini、Gemini-2.5Pro。
在多語言能力方面,Qwen3-235B-A22B-Thinking-2507在MultiIF、PolyMATH測試中也取得了最好成績,超越Deepseek-R1-0528、OpenAIo4-mini、OpenAIo3、Gemini-2.5Pro、Claude4OpusThinking等模型。
▲Qwen3-235B-A22B-Thinking-2507的測評成績(對于OpenAIo4-mini和o3,測試使用中等推理,但標有*的分數(shù)除外,這些分數(shù)是使用高推理生成的。)
“Qwen勢頭強勁,正在征服所有人!”一位開發(fā)者在社交平臺X上稱,“Qwen3235B的搜索能力極致思考模式可不是鬧著玩的。它解決了ChatGPTo3-pro上個月破解的難題。”
▲X網(wǎng)友評價Qwen3-235B-A22B-Thinking-2507體驗
這個難題描述了一個文字游戲:“SabrinaCarpenter的那首歌的歌名是什么?當你讀出你對這個問題的正確單句回答中每個單詞的最后一個字母時,這首歌的歌名也會出現(xiàn)?!比缦聢D所示,Qwen3-235B-A22B-Thinking-2507準確猜出了答案。
▲X網(wǎng)友的試用案例截圖
值得一提的是,本次阿里還推出了為三款最新Qwen3模型大規(guī)模RL(強化學習)訓練提供支持的算法——組序列策略優(yōu)化(GSPO)。
通義千問團隊相關負責人稱:“相較于GRPO,GSPO在穩(wěn)定性、效率、性能和底層友好度方面均具有顯著優(yōu)勢,并且從根本上自然地解決了強化學習中大型MoE模型訓練的穩(wěn)定性問題。”
▲組序列策略優(yōu)化(GSPO)技術(shù)報告截圖
論文地址:
https://huggingface.co/papers/2507.18071
二、一周開源三連冠,劍指閉源巔峰
短短一周時間里,阿里通義千問團隊已連續(xù)開源了三款模型,橫掃全球開源模型權(quán)威測評,成績直追頂級閉源模型。
先是7月22日,阿里更新旗艦版Qwen3模型,推出Qwen3-235B-A22B非思考模式(Non-thinking)的更新版本,命名為Qwen3-235B-A22B-Instruct-2507。
新的Qwen3模型通用能力顯著提升,在指令遵循、邏輯推理、文本理解、數(shù)學、科學、編程及工具使用等方面眾多測評中,超過Kimi-K2、DeepSeek-V3等頂級開源模型以及Claude-Opus4-Non-thinking等領先閉源模型。
▲Qwen3-235B-A22B-Instruct-2507測評成績
而后在7月23日,阿里開源了其最新一代旗艦編程模型Qwen3-Coder-480B-A35B-Instruct。這是該團隊迄今為止最強大的開源智能體編程模型,擁有480B參數(shù),激活參數(shù)為35B,原生支持256K上下文。借助Qwen3-Coder,剛?cè)胄械某绦騿T一天就能完成資深程序員一周的工作,生成一個品牌官網(wǎng)最快只需5分鐘。
在基準測試中,Qwen3-Coder在編程和智能體任務上擁有不錯的性能,于AgenticCoding(智能體編程)、AgenticBrowser-Use(智能體瀏覽器使用)和AgenticTool-Use(智能體工具調(diào)用)三類任務中獲得了開源SOTA,超過KimiK2、DeepSeekV3等開源模型和GPT-4.1等閉源模型,并可與ClaudeSonnet4這一以編程能力著稱的模型相媲美。
除了模型之外,Qwen還開源了一個由GeminiCode分叉而來的智能體編程命令行工具——QwenCode,這一工具進行了定制提示和函數(shù)調(diào)用協(xié)議的適配,能更充分的釋放Qwen3-Coder在智能體編程任務上的能力。
7月23日當日,阿里云還宣布Qwen3-Coder未來一個月5-7折優(yōu)惠,256K-1M上下文長度,輸入價格10元/百萬tokens,輸出價格100元/百萬tokens;緊接著今日,阿里云宣布通義靈碼上線Qwen3-Coder,免費使用不限量。
Qwen3-Coder的開源引發(fā)硅谷和全球AI圈熱議,獲得推特創(chuàng)始人杰克·多爾西、PerplexityCEO阿拉溫德·斯里尼瓦斯、a16z合伙人馬克·馬斯克羅等科技領袖盛贊。HuggingFaceCEO克萊門特·德朗格更是多次力薦。
同時,阿里千問API在海外知名模型API聚合平臺OpenRouter的調(diào)用量暴漲,突破千億級tokens,在OpenRouter趨勢榜上包攬全球前三,成為當下最熱門模型。
結(jié)語:中國開源力量,改寫格局
開源浪潮正重塑大模型競爭規(guī)則。阿里通義千問以“三日三冠”的強勢表現(xiàn),不僅橫掃開源戰(zhàn)場,更在多領域直逼閉源天花板。
此次連續(xù)開源頂尖模型,為開發(fā)者提供了對標閉源巨頭的“開源平權(quán)”利器。從硅谷開發(fā)者的狂熱調(diào)用,到全球社區(qū)登頂?shù)挠埠藨?zhàn)績,阿里正以開源為支點,撬動大模型競爭新范式。中國力量,正在改寫全球大模型產(chǎn)業(yè)格局。
《太古龍象訣》擁有極其可怕的威力,對于靈魂的傷害,是最為恐怖
四本被名字耽誤卻意外好看的精品小說,精彩炸裂,讀來津津有味
年度碼字王:2017年更新字數(shù)最多的網(wǎng)絡小說誕生!
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。