機器之心報道
張倩
繼前段時間密集發(fā)布了三款AI大模型后,Qwen凌晨又更新了——原本的Qwen3-30B-A3B有了一個新版本:Qwen3-30B-A3B-Instruct-2507
這個新版本是一個非思考模式(non-thinkingmode)的新模型。它的亮點在于,僅激活30億(3B)參數,就能展現出與業(yè)界頂尖閉源模型,如谷歌的Gemini2.5-Flash(非思考模式)和OpenAI的GPT-4o相媲美的超強實力,這標志著在模型效率和性能優(yōu)化上的一次重大突破。
下圖展示了該模型的性能數據,可以看出,與更新前的版本相比,新版本在多項測試中都實現了跨越式提升,比如AIME25從之前的21.6提升到了61.3,Arena-Hardv2成績從24.8提升到了69.0。
下圖展示了新版本和DeepSeek-V3-0324等模型的性能對比結果,可以看到,在很多基準測試中,新版本模型可以基本追平甚至超過DeepSeek-V3-0324。
這讓人感嘆模型計算效率的提升速度。
具體來說,Qwen3-30B-A3B-Instruct-2507在諸多方面實現了關鍵提升:
通用能力大幅提升,包括指令遵循、邏輯推理、文本理解、數學、科學、編程及工具使用等多方面;在多語言的長尾知識覆蓋方面,模型進步顯著在主觀和開放任務中,新模型與進一步緊密對齊了用戶偏好,可以生成更高質量的文本,為用戶提供更有幫助的回答;長文本理解能力提升至256K
現在模型已經在魔搭社區(qū)和HuggingFace等平臺開源。QwenChat上也可以直接體驗。
體驗鏈接:http://chat.qwen.ai/
該模型發(fā)布后也很快得到了社區(qū)的支持,有了更多的使用渠道,甚至還有了量化版本。這就是開源的力量。
它的出現,讓大家在消費級GPU上運行AI模型有了新的選擇。
有人曬出了這個新版本在自己的Mac電腦、搭載RTX3090的PC等設備上的運行體驗。
如果你也想運行這個模型,可以參考這個配置要求:
值得注意的是,這次的新版本模型是一個非推理模型。著名開發(fā)者SimonWillison將該模型與他之前測試過的「推理」模型(如GLM-4.5Air)進行了對比。他得出的核心結論是:對于生成「開箱即用」的復雜代碼這類任務,模型是否具備「推理」能力可能是一個至關重要的因素。
Qwen團隊的這次更新依然在深夜進行,這讓其他同行再次感覺被卷到了。不過,每天醒來都能看到AI的能力又上了一個新臺階,這本身就是一件激動人心的事。
破解行政執(zhí)法難
廖苑辰|論數字政府的法治化建設——以數字權利為視角
山東:用科技化手段有效避免行政執(zhí)法中的選擇性落實??澎湃在線