我們正式介紹兩個新的GLM系列成員:GLM-4.5和GLM-4.5-Air——我們最新的旗艦模型。GLM-4.5擁有3550億總參數和320億激活參數,而GLM-4.5-Air擁有1060億總參數和120億激活參數。兩者都旨在將推理、編碼和智能體能力統(tǒng)一到一個模型中,以滿足快速增長的智能體應用日益復雜的需求。
GLM-4.5和GLM-4.5-Air都是混合推理模型,提供:用于復雜推理和工具使用的思考模式,以及用于即時響應的非思考模式。它們可在Z.ai、智譜清言(chatglm.cn)和開放平臺BigModel上使用,開放權重可在HuggingFace和ModelScope獲取。歡迎開發(fā)者、企業(yè)、用戶廣泛測試與集成,探索AGI的奧秘。
背景:大語言模型的目標是在廣泛領域達到人類認知水平,而非針對特定任務而設計專家模型。一個優(yōu)秀的大語言模型必須具備通用問題解決、泛化能力、常識推理和自我改進等核心能力。過去五年里,OpenAI的GPT-3學會了常識知識,而o1模型則通過強化學習實現(xiàn)了“先思考后回答”,在編程、數據分析和復雜數學問題上的推理能力得到了顯著提升。然而,現(xiàn)有模型仍然算不上真正的通用模型:有些擅長編程,有些精于數學,有些在推理方面表現(xiàn)出色,但沒有一個能在所有任務上都達到最佳表現(xiàn)。GLM-4.5正是朝著統(tǒng)一各種能力這一目標努力,力求在一個模型中集成所有這些不同的能力。
總體性能
我們在涵蓋智能體(3項)、推理(7項)和編程(2項)的12個基準測試上將GLM-4.5與來自OpenAI、Anthropic、GoogleDeepMind、xAI、阿里巴巴、月之暗面和深度求索的各種模型進行了比較??傮w而言,GLM-4.5排名第3,GLM-4.5Air排名第6。
智能體任務
GLM-4.5是一個為智能體任務優(yōu)化的基礎模型。它提供128k的上下文長度和原生函數調用能力。我們在τ-bench和BFCL-v3(BerkeleyFunctionCallingLeaderboardv3)上測量了其智能體能力。在這兩個基準測試上,GLM-4.5與Claude4Sonnet的性能相匹配。
網頁瀏覽是一個流行的智能體應用,需要復雜的推理和多輪工具使用。我們在BrowseComp基準測試上評估了GLM-4.5,這是一個具有挑戰(zhàn)性的網頁瀏覽基準測試,包含需要簡短回答的復雜問題。借助網頁瀏覽工具,GLM-4.5對26.4%的問題給出了正確回答,明顯優(yōu)于Claude-4-Opus(18.8%),接近o4-mini-high(28.3%)。下圖顯示了GLM-4.5在BrowseComp上隨測試時擴展的準確性提升。
推理
在思考模式下,GLM-4.5和GLM-4.5-Air可以解決復雜的推理問題,包括數學、科學和邏輯問題。
對于AIME和GPQA基準測試,我們分別報告了32個和8個樣本的平均準確率(Avg@32,Avg@8)以減輕結果方差。使用LLM進行自動答案驗證。對于HLE基準測試,僅評估基于文本的問題,正確性由gpt-4o判斷。
編程
GLM-4.5擅長編程,包括從頭開始構建編程項目和在現(xiàn)有項目中作為智能體解決編程任務。
它可以與現(xiàn)有的編程工具無縫結合,如ClaudeCode、RooCode和CodeGeex。為了評估編程能力,我們在SWE-benchVerified和Terminal-Bench上比較了不同模型。下表展示了結果。
1對于SWE-benchVerified,我們使用OpenHandsv0.34.0,運行限制為100次迭代,并截斷歷史記錄以防止超過128K上下文限制,配置為temperature=0.6,top_p=1.0。
2對于Terminal-Bench,我們使用Terminus框架進行評估。我們使用標準函數調用而不是直接提示進行評估。
我們對所有比較模型進行了帕累托前沿分析(如下圖所示)。GLM-4.5和GLM-4.5-Air相對于相似規(guī)模的模型表現(xiàn)出優(yōu)越的性能,在性能-參數量權衡上實現(xiàn)了最佳效率。
為了評估GLM-4.5的智能體編程能力,我們使用ClaudeCode作為評測工具,將其與Claude4Sonnet、KimiK2和Qwen3-Coder進行對比。測試涵蓋了52個編程任務,包括前端開發(fā)、工具開發(fā)、數據分析、測試和算法實現(xiàn)等多個領域。所有評測都在獨立的Docker容器中進行,并通過多輪人機交互并采用標準化的評估準則確保測試的一致性和可重復性。實驗結果顯示,GLM-4.5對KimiK2的勝率達到53.9%,對Qwen3-Coder更是取得了80.8%的壓倒性優(yōu)勢。盡管GLM-4.5展現(xiàn)出了不錯的競爭力,但與Claude-4-Sonnet相比,仍有進一步優(yōu)化的空間。
值得注意的是,GLM-4.5的平均工具調用成功率最高(90.6%),優(yōu)于Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)和Qwen3-Coder(77.1%),展示了在智能體編程任務中的可靠性。所有52個編程任務的軌跡公開在此處供社區(qū)進一步研究。鏈接:https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
技術模型架構和預訓練
在GLM-4.5系列模型中,我們采用了MoE(專家混合)架構,這種架構能夠顯著提升訓練和推理時的計算效率。我們在MoE層采用了loss-freebalance路由和sigmoidgate機制。與DeepSeek-V3和KimiK2的設計思路不同,我們選擇了"瘦高"的模型結構——減少模型的寬度(包括隱藏維度和路由專家的數量),同時增加模型的深度(層數)。我們發(fā)現(xiàn),更深的模型在推理能力上表現(xiàn)更加出色。在自注意力機制方面,我們采用了partalRoPE的分組查詢注意力(Grouped-QueryAttention)。另外,我們將注意力頭的數量增加到了2.5倍(在5120的隱藏維度下使用96個注意力頭)。有意思的是,雖然增加注意力頭的數量并沒有讓訓練loss更低,但在MMLU和BBH等推理基準測試中,模型的表現(xiàn)卻得到了穩(wěn)定提升。GLM-4.5使用了Muon優(yōu)化器,這個優(yōu)化器不僅能加快模型收斂速度,還能在更大的BatchSize下相比AdamW保持更好的收斂效果,從而提升訓練效率。我們還引入了QK-Norm技術來提升注意力logits的數值穩(wěn)定性。GLM-4.5和GLM-4.5-Air都加入了MTP(MultiTokenPredition)層,用于在推理階段實現(xiàn)推測解碼,進一步提升推理效率。
我們的基礎模型經歷了幾個訓練階段。在預訓練期間,模型首先在15Ttoken的通用預訓練語料庫上訓練,然后在7Ttoken的代碼和推理語料庫上訓練。預訓練后,我們引入了Mid-Training階段來進一步提升模型在專有領域上的性能。
基于slime的大模型強化學習
為了支持GLM-4.5這樣的大模型進行高效的強化學習(RL)訓練,我們設計、開發(fā)并開源了slime。這是一個在靈活性、效率和可擴展性方面都表現(xiàn)卓越的RL框架,歡迎社區(qū)使用并參與貢獻。
slime旨在解決強化學習中的常見瓶頸,并針對復雜的智能體任務做了優(yōu)化。
靈活的混合訓練架構:slime的核心優(yōu)勢在于其多功能的混合架構。它既支持同步、集中式訓練(適合推理和通用強化學習訓練),也支持分布式、異步訓練模式。這種異步模式對于AgenticRL至關重要,因為在這類場景中,數據生成往往是一個緩慢的外部過程。通過將訓練與數據收集解耦,我們可以確保訓練GPU始終保持滿負荷運行,最大化硬件利用率。面向智能體的解耦設計:AgenticRL經常面臨環(huán)境交互時延遲高且分布長尾的問題,這嚴重限制了訓練吞吐量。為此,slime實現(xiàn)了完全解耦的基礎架構,將環(huán)境交互引擎與訓練引擎分離。這兩個組件在不同的硬件上獨立運行,將數據生成的瓶頸轉化為可并行化的非阻塞過程。這種設計是加速長序列智能體任務的關鍵。混合精度加速數據生成:為了進一步提升吞吐量,slime采用混合精度推理來加速環(huán)境交互。它使用FP8格式進行數據生成(Rollout),同時在模型訓練中保留BF16以確保訓練穩(wěn)定性。這種技術在不影響訓練質量的前提下,大幅提升了數據生成速度。
這種整體化的設計使得slime能夠無縫集成多個智能體框架,支持各種任務類型,并通過統(tǒng)一而強大的接口高效管理長序列環(huán)境交互。
增強智能體能力的后訓練
后訓練對大語言模型至關重要,模型通過自主探索和積累經驗來不斷優(yōu)化策略。強化學習(RL)是突破模型能力邊界的關鍵步驟。GLM-4.5不僅整合了GLM-4-0414的通用能力和GLM-Z1的推理能力,還重點提升了智能體能力,包括智能體編程、深度搜索和通用工具使用。
訓練過程首先在精選的推理數據和合成的智能體場景上進行監(jiān)督微調,然后通過專門的強化學習階段分別訓練專家模型。
推理能力訓練:我們在完整的64K上下文長度上進行單階段強化學習,采用基于難度的課程學習來進行多階段RL。為了確保訓練穩(wěn)定性,我們引入了改進的技術:使用動態(tài)采樣溫度來平衡探索與利用。智能體任務訓練:訓練聚焦于兩個可驗證的任務:基于信息檢索的問答和軟件工程任務。我們開發(fā)了可擴展的策略來合成基于搜索的問答對,方法是通過人工參與的內容提取和選擇性地模糊網頁內容。編程任務則通過在真實軟件工程任務上基于執(zhí)行結果的反饋來驅動。
雖然強化學習訓練只針對有限的可驗證任務,但獲得的能力提升可以遷移到相關領域,比如通用工具使用能力。最后,我們通過專家蒸餾將這些專門技能整合起來,使GLM-4.5在各項任務上都具備全面的能力。
更多技術細節(jié),請參考即將發(fā)布的GLM-4.5技術報告。
演示Artifacts
GLM-4.5增強了GLM-4-0414的復雜代碼生成能力。GLM-4.5可以創(chuàng)建復雜的Artifacts,包括小游戲、小工具、物理模擬動畫等,支持HTML、SVG、Python等多種語言。我們相信GLM-4.5的Artifacts將提供更好的用戶體驗,同時為AgenticCoding應用奠定了基礎。
FlappyBird游戲:https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323
3D第一人稱迷宮奔跑者:https://chat.z.ai/s/964d99e9-4756-4733-88ae-2c7814abb406
帶有拖拽和搜索功能的TODO看板:https://chat.z.ai/s/b262f532-7b4d-4ed3-9a94-c9afad9f59c1
SVG動畫-語言模型的演變:https://chat.z.ai/s/6e4c7742-7a2d-469f-9dee-b1b35166efe4
嵌套旋轉六邊形的Python模擬:https://chat.z.ai/s/48d4a175-7757-44ea-b459-12eea185da81
關于麥克斯韋方程組的Beamer幻燈片:https://chat.z.ai/s/c85caa2e-adf5-4697-b03d-af59647fe637
幻燈片創(chuàng)建
在GLM-4.5工具使用和HTML編碼能力的基礎上,我們開發(fā)了一個模型原生的PPT/Poster智能體。無論用戶需要簡單還是復雜的設計,或是上傳文檔資料,GLM-4.5Agent都能自動搜索網絡資源、獲取相關圖片,并生成相應的幻燈片。
塔代伊·波加查爾的成就:https://chat.z.ai/s/e674f111-2f70-4df5-accc-98da4d498058
PDF2PPT(ChatGLM論文):https://chat.z.ai/s/92e21b4c-b8fd-4909-95b0-e26c814688e7
蒙娜麗莎的內心獨白:https://chat.z.ai/s/9d6abba7-dd0b-47b6-a552-3aff87b81341
海報(大爆炸理論):https://chat.z.ai/s/666f0626-b285-4722-aa21-98836f4c673a
海報(寵物領養(yǎng)):https://chat.z.ai/s/93defdcb-3902-4492-a72e-775331466eab
全棧開發(fā)
GLM-4.5在前后端開發(fā)上游刃有余,是構建現(xiàn)代Web應用的利器。為了充分展現(xiàn)這一能力,我們借鑒ClaudeCode框架打造了一款編碼智能體?;陬A置的全棧網站框架,用戶可以一句話生成完整網站,并通過多輪對話輕松添加新功能、完善項目細節(jié)。
寶可夢:https://chat.z.ai/s/f8c2f383-51d4-40b8-82e5-63529eaa00db
中世紀詩歌生成器:https://chat.z.ai/s/2aee0791-1d01-4b59-8f45-1a5bac46f6a1
賽博朋克卡牌生成:https://chat.z.ai/s/4b0d2f79-f4fa-4607-aadf-c4514bb594a8
開始使用GLM-4.5
在Z.ai、智譜清言上與GLM-4.5聊天
GLM-4.5可通過Z.ai平臺訪問,方法是選擇GLM-4.5模型選項。該平臺全面支持前端產物生成、演示幻燈片創(chuàng)建和全棧開發(fā)能力。
在BigModel.cn上調用GLM-4.5API
BigModelAPI平臺為GLM-4.5和GLM-4.5-Air模型提供OpenAI兼容的接口。有關全面的API文檔和集成指南,請參考https://docs.bigmodel.cn/cn/guide/models/text/glm-4.5。
將GLM-4.5與編碼代理一起使用
有關將GLM-4.5與ClaudeCode和其他編碼代理框架集成的詳細說明,請參閱BigModel.cn上的文檔。
本地部署GLM-4.5
GLM-4.5和GLM-4.5-Air的基礎和聊天變體的模型權重在HuggingFace和ModelScope上公開可用。對于本地部署,GLM-4.5支持包括vLLM和SGLang在內的推理框架。全面的部署說明,詳見官方GitHub倉庫(https://github.com/zai-org/GLM-4.5)。
所有人都欺負她,唯獨他心疼她!傾世之愛再度重生,鳳傾天下誰與爭鋒?
今日推薦:《重生之鳳傾天下》作者:阿昔。點擊文末超鏈接開始觀看吧~第一百三十二章玉珠“一壇酒罷了。”東帝韓泠嗜酒,與其用別的做交換,倒是不如用酒。只是實在有些可惜了一壇梅花酒,她自己都沒有喝,便拿去給了東帝韓泠,實在有些心疼?!翱墒堑钕箩劦拿坊ň??”玉尹道,他倒是曾經喝過梅花酒,沒有其他酒 《嫡女重生:鳳霸天下》 作者:曉風蠶月內容簡介:她是相府嫡女,卻癡傻廢柴,被庶女妹妹折磨致死-。一朝重生,她要他們血債血償?。c擊下方免費閱讀)《嫡女為謀:重生之傾世毒妃》 作者:風輕內容簡介:她的重生,只為復仇!一紙圣詔,她從相府嫡長女淪為低賤庶女!五年傾心相付,助他榮登九五,他卻說說完了。《嫡女為謀:重生之傾世毒妃》她不做賢妻誓做毒婦,看誰斗得過誰