智東西作者陳駿達編輯云鵬
智東西7月23日報道,就在剛剛,阿里巴巴Qwen團隊開源了其最新一代旗艦編程模型Qwen3-Coder-480B-A35B-Instruct。Qwen團隊稱,這是該團隊迄今為止最強大的開源智能體編程模型,擁有480B參數(shù),激活參數(shù)為35B,原生支持256K上下文,并可通過外推擴展至100萬上下文(輸入),其最大輸出為6.5萬token。
在基準測試中,Qwen3-Coder在編程和智能體任務(wù)上擁有不錯的性能,于AgenticCoding(智能體編程)、AgenticBrowser-Use(智能體瀏覽器使用)和AgenticTool-Use(智能體工具調(diào)用)三類任務(wù)中獲得了開源SOTA,超過KimiK2、DeepSeekV3等開源模型和GPT-4.1等閉源模型,并可與ClaudeSonnet4這一以編程能力著稱的模型相媲美。
Qwen3-Coder將提供多種尺寸,本次開源的是其最強大的變體,其參數(shù)量超過了阿里旗艦?zāi)P蚎wen3的235B(2350億),小于KimiK2的1T(1萬億)。據(jù)阿里官方介紹,借助Qwen3-Coder,剛?cè)胄械某绦騿T一天就能完成資深程序員一周的工作,生成一個品牌官網(wǎng)最快只需5分鐘。
除了模型之外,Qwen還開源了一個由GeminiCode分叉而來的智能體編程命令行工具——QwenCode,這一工具進行了定制提示和函數(shù)調(diào)用協(xié)議的適配,能更充分的釋放Qwen3-Coder在智能體編程任務(wù)上的能力。
這一模型已在阿里云旗下大模型服務(wù)平臺百煉上線,其API采用了階梯計費的方式,根據(jù)輸入token量調(diào)整價格。在256K~1M一檔,其輸入價格為6美元/百萬token,輸出價格為60美元/百萬token。相比之下,ClaudeSonnet4的輸入輸出價格分別為3美元/百萬token、15美元/百萬token,與Qwen3-Coder128k~256k一檔的價格持平。
Qwen3-Coder也已在QwenChat網(wǎng)頁版上線,用戶可免費體驗。此外,其480B版本已在HuggingFace、魔搭等開源社區(qū)發(fā)布,可供下載和本地部署。Qwen還在一篇博客文章中詳細分享了模型的技術(shù)細節(jié)。
模型開源地址:https://huggingface.co/Qwen
QwenCode開源地址:https://github.com/QwenLM/qwen-code
博客地址:https://qwenlm.github.io/blog/qwen3-coder/
一、深夜上線QwenChat,海外網(wǎng)友已經(jīng)玩瘋了
在Qwen團隊官宣Qwen3-Coder發(fā)布前,這一模型已經(jīng)悄然在QwenChat官網(wǎng)上線,手速快的海外網(wǎng)友們貢獻了一批實測案例。
這一案例讓Qwen3-Coder打造一個Wordle單詞游戲,規(guī)則是在六次嘗試中猜出一個長度為5個字母的單詞。最終,Qwen3-Coder交付的游戲頁面和源代碼如下。
提供案例的網(wǎng)友稱,Qwen3-Coder在指令遵循、UI設(shè)計、動畫方面的能力驚人,大部分測試結(jié)果一次就跑通了,完全不需要推理。不過,在Wordle游戲設(shè)計這一任務(wù)上,Qwen并沒有使用單詞解析器,也沒有引用來源,而是決定自行枚舉所有5個字母的單詞。
在一則找不同游戲的開發(fā)案例中,可以看到與昨日發(fā)布的Qwen3-235B-A22B-2507相比,Qwen3-Coder在審美和完成度上要明顯好于前者。
智東西則嘗試讓Qwen3-Coder開發(fā)一個中英文術(shù)語庫,并支持增刪改查的基礎(chǔ)功能。可以直觀感受到,由于并未開啟推理,Qwen3-Coder的開發(fā)速度極快,20多秒便完成了初步結(jié)果,在對其生成結(jié)果進行進一步修改時,速度同樣較快。
其最終生成的結(jié)果從UI角度上看的確美觀清晰,功能運轉(zhuǎn)正常,不過并沒有遵循提示詞中使用PHP+MySQL進行開發(fā)的指令。其最終交付的結(jié)果作為功能演示、原型展示完全足夠,但在真實部署場景中的可擴展性還需進一步優(yōu)化。
智東西還讓Qwen3-Coder給自己出了一道3DHTML開發(fā)題,內(nèi)容是創(chuàng)建一個3D旋轉(zhuǎn)的立方體展示臺,六個面顯示不同顏色,自動旋轉(zhuǎn),添加光照效果和陰影等。Qwen3-Coder交付的結(jié)果完成度不錯,基本實現(xiàn)了主要功能,旋轉(zhuǎn)動效、陰影等處理到位。
編程能力之外,Qwen3-Coder還提供了許多其他的玩法,包括圖像生成、視頻生成等,并支持文檔、圖片、視頻、音頻等內(nèi)容的上傳,這可能是通過工具調(diào)用實現(xiàn)的。
正式發(fā)布后,Qwen官方也提供了Qwen3-Coder的部分用例。
例如,可以讓其打造一個基于物理的煙囪拆除模擬,具有受控爆炸。
打造可互動的太陽系模擬,行星之間的關(guān)系基本準確。
開發(fā)出的網(wǎng)頁小游戲完成度不錯。
二、預(yù)訓(xùn)練仍有擴展空間,在20000個獨立環(huán)境進行強化學(xué)習(xí)
Qwen團隊在技術(shù)博客中分享了Qwen3-Coder的部分訓(xùn)練細節(jié),該團隊認為,目前預(yù)訓(xùn)練仍有進一步的擴展空間。
預(yù)訓(xùn)練階段,Qwen3-Coder使用了7.5萬億token數(shù)據(jù),其中代碼占比70%,因此,模型在編程方面表現(xiàn)出色,同時也保留了通用和數(shù)學(xué)能力。
上下文方面,Qwen3-Coder原生支持256K上下文,并可通過YaRN擴展至1M,針對倉庫規(guī)模和動態(tài)數(shù)據(jù)(例如拉取請求)進行了優(yōu)化,從而適配智能體編程場景。
Qwen3-Coder的上一代模型Qwen2.5-Coder被運用于擴展合成數(shù)據(jù),具體而言,Qwen2.5清洗并重寫了噪聲數(shù)據(jù),提升了整體數(shù)據(jù)質(zhì)量。
后訓(xùn)練階段,Qwen團隊認為,與普遍關(guān)注競賽級代碼生成不同,所有代碼任務(wù)都天然適合執(zhí)行驅(qū)動(execution-driven)的大規(guī)模強化學(xué)習(xí)。該團隊在更廣泛的現(xiàn)實世界編程任務(wù)上擴大了代碼強化學(xué)習(xí)訓(xùn)練規(guī)模。
通過自動擴展多樣化編程任務(wù)的測試用例,Qwen團隊創(chuàng)建了高質(zhì)量的訓(xùn)練實例,進一步釋放了強化學(xué)習(xí)的潛力。這不僅提高了代碼執(zhí)行成功率,還為其他任務(wù)帶來了收益。
這也啟發(fā)該團隊進一步探索難以解決,卻易于驗證的任務(wù)類型,這有望成為強化學(xué)習(xí)的沃土。
在現(xiàn)實世界的軟件工程任務(wù)(例如SWE-Bench)中,Qwen3-Coder必須與環(huán)境進行多輪交互,涉及規(guī)劃、使用工具、接收反饋和做出決策。在Qwen3-Coder的后訓(xùn)練階段,Qwen團隊引入了長視距強化學(xué)習(xí)(智能體強化學(xué)習(xí)),鼓勵模型通過使用工具進行多輪交互來解決現(xiàn)實世界任務(wù)。
智能體強化學(xué)習(xí)的關(guān)鍵挑戰(zhàn)在于環(huán)境擴展。為解決這一問題,該團隊構(gòu)建了一個可擴展的系統(tǒng),能夠并行運行20000個獨立環(huán)境。該基礎(chǔ)設(shè)施為大規(guī)模強化學(xué)習(xí)提供了必要的反饋,并支持大規(guī)模評估。
因此,Qwen3-Coder在SWE-BenchVerified中實現(xiàn)了開源模型中的最佳性能,且無需使用推理(測試時擴展)。
同時開源的QwenCode是一個用于研究目的的命令行界面(CLI)工具,基于GeminiCLI開發(fā),針對Qwen-Coder模型進行了增強的解析器和工具支持。
除了QwenCode,還可以使用ClaudeCode與Qwen3-Coder一起編程。只需在Dashscope平臺上申請一個API密鑰,并安裝ClaudeCode即可開始編程。
結(jié)語:更多尺寸即將推出,探索編程智能體自我提升
在Cursor斷供Claude等適用于編程領(lǐng)域的模型之際,Qwen3-Coder的本次開源給國內(nèi)開發(fā)者提供了最新的替代選項。
Qwen團隊透露,他們?nèi)栽谂μ岣逤odingAgent的性能,旨在讓它承擔軟件工程中復(fù)雜和乏味的任務(wù),從而釋放人類的生產(chǎn)力。
Qwen3-Coder的更多模型尺寸即將推出,可維持部署成本和性能之間的平衡。此外,該團隊正在探索CodingAgent是否可以實現(xiàn)自我提升。