張佩君
我們正式介紹兩個(gè)新的GLM系列成員:GLM-4.5和GLM-4.5-Air——我們最新的旗艦?zāi)P汀LM-4.5擁有3550億總參數(shù)和320億激活參數(shù),而GLM-4.5-Air擁有1060億總參數(shù)和120億激活參數(shù)。兩者都旨在將推理、編碼和智能體能力統(tǒng)一到一個(gè)模型中,以滿足快速增長(zhǎng)的智能體應(yīng)用日益復(fù)雜的需求。
GLM-4.5和GLM-4.5-Air都是混合推理模型,提供:用于復(fù)雜推理和工具使用的思考模式,以及用于即時(shí)響應(yīng)的非思考模式。它們可在Z.ai、智譜清言(chatglm.cn)和開(kāi)放平臺(tái)BigModel上使用,開(kāi)放權(quán)重可在HuggingFace和ModelScope獲取。歡迎開(kāi)發(fā)者、企業(yè)、用戶廣泛測(cè)試與集成,探索AGI的奧秘。
背景:大語(yǔ)言模型的目標(biāo)是在廣泛領(lǐng)域達(dá)到人類認(rèn)知水平,而非針對(duì)特定任務(wù)而設(shè)計(jì)專家模型。一個(gè)優(yōu)秀的大語(yǔ)言模型必須具備通用問(wèn)題解決、泛化能力、常識(shí)推理和自我改進(jìn)等核心能力。過(guò)去五年里,OpenAI的GPT-3學(xué)會(huì)了常識(shí)知識(shí),而o1模型則通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了“先思考后回答”,在編程、數(shù)據(jù)分析和復(fù)雜數(shù)學(xué)問(wèn)題上的推理能力得到了顯著提升。然而,現(xiàn)有模型仍然算不上真正的通用模型:有些擅長(zhǎng)編程,有些精于數(shù)學(xué),有些在推理方面表現(xiàn)出色,但沒(méi)有一個(gè)能在所有任務(wù)上都達(dá)到最佳表現(xiàn)。GLM-4.5正是朝著統(tǒng)一各種能力這一目標(biāo)努力,力求在一個(gè)模型中集成所有這些不同的能力。
總體性能
我們?cè)诤w智能體(3項(xiàng))、推理(7項(xiàng))和編程(2項(xiàng))的12個(gè)基準(zhǔn)測(cè)試上將GLM-4.5與來(lái)自O(shè)penAI、Anthropic、GoogleDeepMind、xAI、阿里巴巴、月之暗面和深度求索的各種模型進(jìn)行了比較。總體而言,GLM-4.5排名第3,GLM-4.5Air排名第6。
智能體任務(wù)
GLM-4.5是一個(gè)為智能體任務(wù)優(yōu)化的基礎(chǔ)模型。它提供128k的上下文長(zhǎng)度和原生函數(shù)調(diào)用能力。我們?cè)讦?bench和BFCL-v3(BerkeleyFunctionCallingLeaderboardv3)上測(cè)量了其智能體能力。在這兩個(gè)基準(zhǔn)測(cè)試上,GLM-4.5與Claude4Sonnet的性能相匹配。
網(wǎng)頁(yè)瀏覽是一個(gè)流行的智能體應(yīng)用,需要復(fù)雜的推理和多輪工具使用。我們?cè)贐rowseComp基準(zhǔn)測(cè)試上評(píng)估了GLM-4.5,這是一個(gè)具有挑戰(zhàn)性的網(wǎng)頁(yè)瀏覽基準(zhǔn)測(cè)試,包含需要簡(jiǎn)短回答的復(fù)雜問(wèn)題。借助網(wǎng)頁(yè)瀏覽工具,GLM-4.5對(duì)26.4%的問(wèn)題給出了正確回答,明顯優(yōu)于Claude-4-Opus(18.8%),接近o4-mini-high(28.3%)。下圖顯示了GLM-4.5在BrowseComp上隨測(cè)試時(shí)擴(kuò)展的準(zhǔn)確性提升。
推理
在思考模式下,GLM-4.5和GLM-4.5-Air可以解決復(fù)雜的推理問(wèn)題,包括數(shù)學(xué)、科學(xué)和邏輯問(wèn)題。
對(duì)于AIME和GPQA基準(zhǔn)測(cè)試,我們分別報(bào)告了32個(gè)和8個(gè)樣本的平均準(zhǔn)確率(Avg@32,Avg@8)以減輕結(jié)果方差。使用LLM進(jìn)行自動(dòng)答案驗(yàn)證。對(duì)于HLE基準(zhǔn)測(cè)試,僅評(píng)估基于文本的問(wèn)題,正確性由gpt-4o判斷。
編程
GLM-4.5擅長(zhǎng)編程,包括從頭開(kāi)始構(gòu)建編程項(xiàng)目和在現(xiàn)有項(xiàng)目中作為智能體解決編程任務(wù)。
它可以與現(xiàn)有的編程工具無(wú)縫結(jié)合,如ClaudeCode、RooCode和CodeGeex。為了評(píng)估編程能力,我們?cè)赟WE-benchVerified和Terminal-Bench上比較了不同模型。下表展示了結(jié)果。
1對(duì)于SWE-benchVerified,我們使用OpenHandsv0.34.0,運(yùn)行限制為100次迭代,并截?cái)鄽v史記錄以防止超過(guò)128K上下文限制,配置為temperature=0.6,top_p=1.0。
2對(duì)于Terminal-Bench,我們使用Terminus框架進(jìn)行評(píng)估。我們使用標(biāo)準(zhǔn)函數(shù)調(diào)用而不是直接提示進(jìn)行評(píng)估。
我們對(duì)所有比較模型進(jìn)行了帕累托前沿分析(如下圖所示)。GLM-4.5和GLM-4.5-Air相對(duì)于相似規(guī)模的模型表現(xiàn)出優(yōu)越的性能,在性能-參數(shù)量權(quán)衡上實(shí)現(xiàn)了最佳效率。
為了評(píng)估GLM-4.5的智能體編程能力,我們使用ClaudeCode作為評(píng)測(cè)工具,將其與Claude4Sonnet、KimiK2和Qwen3-Coder進(jìn)行對(duì)比。測(cè)試涵蓋了52個(gè)編程任務(wù),包括前端開(kāi)發(fā)、工具開(kāi)發(fā)、數(shù)據(jù)分析、測(cè)試和算法實(shí)現(xiàn)等多個(gè)領(lǐng)域。所有評(píng)測(cè)都在獨(dú)立的Docker容器中進(jìn)行,并通過(guò)多輪人機(jī)交互并采用標(biāo)準(zhǔn)化的評(píng)估準(zhǔn)則確保測(cè)試的一致性和可重復(fù)性。實(shí)驗(yàn)結(jié)果顯示,GLM-4.5對(duì)KimiK2的勝率達(dá)到53.9%,對(duì)Qwen3-Coder更是取得了80.8%的壓倒性優(yōu)勢(shì)。盡管GLM-4.5展現(xiàn)出了不錯(cuò)的競(jìng)爭(zhēng)力,但與Claude-4-Sonnet相比,仍有進(jìn)一步優(yōu)化的空間。
值得注意的是,GLM-4.5的平均工具調(diào)用成功率最高(90.6%),優(yōu)于Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)和Qwen3-Coder(77.1%),展示了在智能體編程任務(wù)中的可靠性。所有52個(gè)編程任務(wù)的軌跡公開(kāi)在此處供社區(qū)進(jìn)一步研究。鏈接:https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
技術(shù)模型架構(gòu)和預(yù)訓(xùn)練
在GLM-4.5系列模型中,我們采用了MoE(專家混合)架構(gòu),這種架構(gòu)能夠顯著提升訓(xùn)練和推理時(shí)的計(jì)算效率。我們?cè)贛oE層采用了loss-freebalance路由和sigmoidgate機(jī)制。與DeepSeek-V3和KimiK2的設(shè)計(jì)思路不同,我們選擇了"瘦高"的模型結(jié)構(gòu)——減少模型的寬度(包括隱藏維度和路由專家的數(shù)量),同時(shí)增加模型的深度(層數(shù))。我們發(fā)現(xiàn),更深的模型在推理能力上表現(xiàn)更加出色。在自注意力機(jī)制方面,我們采用了partalRoPE的分組查詢注意力(Grouped-QueryAttention)。另外,我們將注意力頭的數(shù)量增加到了2.5倍(在5120的隱藏維度下使用96個(gè)注意力頭)。有意思的是,雖然增加注意力頭的數(shù)量并沒(méi)有讓訓(xùn)練loss更低,但在MMLU和BBH等推理基準(zhǔn)測(cè)試中,模型的表現(xiàn)卻得到了穩(wěn)定提升。GLM-4.5使用了Muon優(yōu)化器,這個(gè)優(yōu)化器不僅能加快模型收斂速度,還能在更大的BatchSize下相比AdamW保持更好的收斂效果,從而提升訓(xùn)練效率。我們還引入了QK-Norm技術(shù)來(lái)提升注意力logits的數(shù)值穩(wěn)定性。GLM-4.5和GLM-4.5-Air都加入了MTP(MultiTokenPredition)層,用于在推理階段實(shí)現(xiàn)推測(cè)解碼,進(jìn)一步提升推理效率。
我們的基礎(chǔ)模型經(jīng)歷了幾個(gè)訓(xùn)練階段。在預(yù)訓(xùn)練期間,模型首先在15Ttoken的通用預(yù)訓(xùn)練語(yǔ)料庫(kù)上訓(xùn)練,然后在7Ttoken的代碼和推理語(yǔ)料庫(kù)上訓(xùn)練。預(yù)訓(xùn)練后,我們引入了Mid-Training階段來(lái)進(jìn)一步提升模型在專有領(lǐng)域上的性能。
基于slime的大模型強(qiáng)化學(xué)習(xí)
為了支持GLM-4.5這樣的大模型進(jìn)行高效的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,我們?cè)O(shè)計(jì)、開(kāi)發(fā)并開(kāi)源了slime。這是一個(gè)在靈活性、效率和可擴(kuò)展性方面都表現(xiàn)卓越的RL框架,歡迎社區(qū)使用并參與貢獻(xiàn)。
slime旨在解決強(qiáng)化學(xué)習(xí)中的常見(jiàn)瓶頸,并針對(duì)復(fù)雜的智能體任務(wù)做了優(yōu)化。
靈活的混合訓(xùn)練架構(gòu):slime的核心優(yōu)勢(shì)在于其多功能的混合架構(gòu)。它既支持同步、集中式訓(xùn)練(適合推理和通用強(qiáng)化學(xué)習(xí)訓(xùn)練),也支持分布式、異步訓(xùn)練模式。這種異步模式對(duì)于AgenticRL至關(guān)重要,因?yàn)樵谶@類場(chǎng)景中,數(shù)據(jù)生成往往是一個(gè)緩慢的外部過(guò)程。通過(guò)將訓(xùn)練與數(shù)據(jù)收集解耦,我們可以確保訓(xùn)練GPU始終保持滿負(fù)荷運(yùn)行,最大化硬件利用率。面向智能體的解耦設(shè)計(jì):AgenticRL經(jīng)常面臨環(huán)境交互時(shí)延遲高且分布長(zhǎng)尾的問(wèn)題,這嚴(yán)重限制了訓(xùn)練吞吐量。為此,slime實(shí)現(xiàn)了完全解耦的基礎(chǔ)架構(gòu),將環(huán)境交互引擎與訓(xùn)練引擎分離。這兩個(gè)組件在不同的硬件上獨(dú)立運(yùn)行,將數(shù)據(jù)生成的瓶頸轉(zhuǎn)化為可并行化的非阻塞過(guò)程。這種設(shè)計(jì)是加速長(zhǎng)序列智能體任務(wù)的關(guān)鍵?;旌暇燃铀贁?shù)據(jù)生成:為了進(jìn)一步提升吞吐量,slime采用混合精度推理來(lái)加速環(huán)境交互。它使用FP8格式進(jìn)行數(shù)據(jù)生成(Rollout),同時(shí)在模型訓(xùn)練中保留BF16以確保訓(xùn)練穩(wěn)定性。這種技術(shù)在不影響訓(xùn)練質(zhì)量的前提下,大幅提升了數(shù)據(jù)生成速度。
這種整體化的設(shè)計(jì)使得slime能夠無(wú)縫集成多個(gè)智能體框架,支持各種任務(wù)類型,并通過(guò)統(tǒng)一而強(qiáng)大的接口高效管理長(zhǎng)序列環(huán)境交互。
增強(qiáng)智能體能力的后訓(xùn)練
后訓(xùn)練對(duì)大語(yǔ)言模型至關(guān)重要,模型通過(guò)自主探索和積累經(jīng)驗(yàn)來(lái)不斷優(yōu)化策略。強(qiáng)化學(xué)習(xí)(RL)是突破模型能力邊界的關(guān)鍵步驟。GLM-4.5不僅整合了GLM-4-0414的通用能力和GLM-Z1的推理能力,還重點(diǎn)提升了智能體能力,包括智能體編程、深度搜索和通用工具使用。
訓(xùn)練過(guò)程首先在精選的推理數(shù)據(jù)和合成的智能體場(chǎng)景上進(jìn)行監(jiān)督微調(diào),然后通過(guò)專門的強(qiáng)化學(xué)習(xí)階段分別訓(xùn)練專家模型。
推理能力訓(xùn)練:我們?cè)谕暾?4K上下文長(zhǎng)度上進(jìn)行單階段強(qiáng)化學(xué)習(xí),采用基于難度的課程學(xué)習(xí)來(lái)進(jìn)行多階段RL。為了確保訓(xùn)練穩(wěn)定性,我們引入了改進(jìn)的技術(shù):使用動(dòng)態(tài)采樣溫度來(lái)平衡探索與利用。智能體任務(wù)訓(xùn)練:訓(xùn)練聚焦于兩個(gè)可驗(yàn)證的任務(wù):基于信息檢索的問(wèn)答和軟件工程任務(wù)。我們開(kāi)發(fā)了可擴(kuò)展的策略來(lái)合成基于搜索的問(wèn)答對(duì),方法是通過(guò)人工參與的內(nèi)容提取和選擇性地模糊網(wǎng)頁(yè)內(nèi)容。編程任務(wù)則通過(guò)在真實(shí)軟件工程任務(wù)上基于執(zhí)行結(jié)果的反饋來(lái)驅(qū)動(dòng)。
雖然強(qiáng)化學(xué)習(xí)訓(xùn)練只針對(duì)有限的可驗(yàn)證任務(wù),但獲得的能力提升可以遷移到相關(guān)領(lǐng)域,比如通用工具使用能力。最后,我們通過(guò)專家蒸餾將這些專門技能整合起來(lái),使GLM-4.5在各項(xiàng)任務(wù)上都具備全面的能力。
更多技術(shù)細(xì)節(jié),請(qǐng)參考即將發(fā)布的GLM-4.5技術(shù)報(bào)告。
演示Artifacts
GLM-4.5增強(qiáng)了GLM-4-0414的復(fù)雜代碼生成能力。GLM-4.5可以創(chuàng)建復(fù)雜的Artifacts,包括小游戲、小工具、物理模擬動(dòng)畫等,支持HTML、SVG、Python等多種語(yǔ)言。我們相信GLM-4.5的Artifacts將提供更好的用戶體驗(yàn),同時(shí)為AgenticCoding應(yīng)用奠定了基礎(chǔ)。
FlappyBird游戲:https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323
3D第一人稱迷宮奔跑者:https://chat.z.ai/s/964d99e9-4756-4733-88ae-2c7814abb406
帶有拖拽和搜索功能的TODO看板:https://chat.z.ai/s/b262f532-7b4d-4ed3-9a94-c9afad9f59c1
SVG動(dòng)畫-語(yǔ)言模型的演變:https://chat.z.ai/s/6e4c7742-7a2d-469f-9dee-b1b35166efe4
嵌套旋轉(zhuǎn)六邊形的Python模擬:https://chat.z.ai/s/48d4a175-7757-44ea-b459-12eea185da81
關(guān)于麥克斯韋方程組的Beamer幻燈片:https://chat.z.ai/s/c85caa2e-adf5-4697-b03d-af59647fe637
幻燈片創(chuàng)建
在GLM-4.5工具使用和HTML編碼能力的基礎(chǔ)上,我們開(kāi)發(fā)了一個(gè)模型原生的PPT/Poster智能體。無(wú)論用戶需要簡(jiǎn)單還是復(fù)雜的設(shè)計(jì),或是上傳文檔資料,GLM-4.5Agent都能自動(dòng)搜索網(wǎng)絡(luò)資源、獲取相關(guān)圖片,并生成相應(yīng)的幻燈片。
塔代伊·波加查爾的成就:https://chat.z.ai/s/e674f111-2f70-4df5-accc-98da4d498058
PDF2PPT(ChatGLM論文):https://chat.z.ai/s/92e21b4c-b8fd-4909-95b0-e26c814688e7
蒙娜麗莎的內(nèi)心獨(dú)白:https://chat.z.ai/s/9d6abba7-dd0b-47b6-a552-3aff87b81341
海報(bào)(大爆炸理論):https://chat.z.ai/s/666f0626-b285-4722-aa21-98836f4c673a
海報(bào)(寵物領(lǐng)養(yǎng)):https://chat.z.ai/s/93defdcb-3902-4492-a72e-775331466eab
全棧開(kāi)發(fā)
GLM-4.5在前后端開(kāi)發(fā)上游刃有余,是構(gòu)建現(xiàn)代Web應(yīng)用的利器。為了充分展現(xiàn)這一能力,我們借鑒ClaudeCode框架打造了一款編碼智能體?;陬A(yù)置的全棧網(wǎng)站框架,用戶可以一句話生成完整網(wǎng)站,并通過(guò)多輪對(duì)話輕松添加新功能、完善項(xiàng)目細(xì)節(jié)。
寶可夢(mèng):https://chat.z.ai/s/f8c2f383-51d4-40b8-82e5-63529eaa00db
中世紀(jì)詩(shī)歌生成器:https://chat.z.ai/s/2aee0791-1d01-4b59-8f45-1a5bac46f6a1
賽博朋克卡牌生成:https://chat.z.ai/s/4b0d2f79-f4fa-4607-aadf-c4514bb594a8
開(kāi)始使用GLM-4.5
在Z.ai、智譜清言上與GLM-4.5聊天
GLM-4.5可通過(guò)Z.ai平臺(tái)訪問(wèn),方法是選擇GLM-4.5模型選項(xiàng)。該平臺(tái)全面支持前端產(chǎn)物生成、演示幻燈片創(chuàng)建和全棧開(kāi)發(fā)能力。
在BigModel.cn上調(diào)用GLM-4.5API
BigModelAPI平臺(tái)為GLM-4.5和GLM-4.5-Air模型提供OpenAI兼容的接口。有關(guān)全面的API文檔和集成指南,請(qǐng)參考https://docs.bigmodel.cn/cn/guide/models/text/glm-4.5。
將GLM-4.5與編碼代理一起使用
有關(guān)將GLM-4.5與ClaudeCode和其他編碼代理框架集成的詳細(xì)說(shuō)明,請(qǐng)參閱BigModel.cn上的文檔。
本地部署GLM-4.5
GLM-4.5和GLM-4.5-Air的基礎(chǔ)和聊天變體的模型權(quán)重在HuggingFace和ModelScope上公開(kāi)可用。對(duì)于本地部署,GLM-4.5支持包括vLLM和SGLang在內(nèi)的推理框架。全面的部署說(shuō)明,詳見(jiàn)官方GitHub倉(cāng)庫(kù)(https://github.com/zai-org/GLM-4.5)。
來(lái)源:紅網(wǎng)
作者:肇翠嵐
編輯:吳承
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。