今天,我們帶來新一代旗艦?zāi)P虶LM-4.5,專為智能體應(yīng)用打造的基礎(chǔ)模型。HuggingFace與ModelScope平臺(tái)同步開源,模型權(quán)重遵循MITLicense。
要點(diǎn)如下:
GLM-4.5在包含推理、代碼、智能體的綜合能力達(dá)到開源SOTA,在真實(shí)代碼智能體的人工對(duì)比評(píng)測(cè)中,實(shí)測(cè)國(guó)內(nèi)最佳采用混合專家(MoE)架構(gòu),包括GLM-4.5:總參數(shù)量3550億,激活參數(shù)320億;GLM-4.5-Air:總參數(shù)1060億,激活參數(shù)120億;兩種模式:用于復(fù)雜推理和工具使用的思考模式,及用于即時(shí)響應(yīng)的非思考模式;
高速、低成本:API調(diào)用價(jià)格低至輸入0.8元/百萬tokens、輸出2元/百萬tokens;高速版最高可達(dá)100tokens/秒。
API已上線開放平臺(tái)BigModel.cn,可以一鍵兼容ClaudeCode框架。同時(shí),大家也可以上智譜清言(chatglm.cn)和z.ai免費(fèi)體驗(yàn)滿血版。歡迎開發(fā)者、企業(yè)、用戶廣泛測(cè)試與集成,探索AGI的奧秘。
綜合性能SOTA
衡量AGI的第一性原理,是在不損失原有能力的前提下融合更多通用智能能力,GLM-4.5是我們對(duì)此理念的首次完整呈現(xiàn),并有幸取得技術(shù)突破。GLM-4.5首次在單個(gè)模型中實(shí)現(xiàn)將推理、編碼和智能體能力原生融合,以滿足智能體應(yīng)用的復(fù)雜需求。
為綜合衡量模型的通用能力,我們選擇了最具有代表性的12個(gè)評(píng)測(cè)基準(zhǔn),包括MMLUPro、AIME24、MATH500、SciCode、GPQA、HLE、LiveCodeBench、SWE-BenchVerified、Terminal-Bench、TAU-Bench、BFCLv3和BrowseComp。綜合平均分,GLM-4.5取得了全球模型第三、國(guó)產(chǎn)模型第一,開源模型第一。
GLM-4.5和GLM-4.5-Air使用了相似的訓(xùn)練流程:首先在15萬億token的通用數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練,此后在代碼、推理、智能體等領(lǐng)域的8萬億token數(shù)據(jù)上進(jìn)行針對(duì)性訓(xùn)練,最后通過強(qiáng)化學(xué)習(xí)進(jìn)一步增強(qiáng)模型推理、代碼與智能體能力。更多技術(shù)細(xì)節(jié)可參考我們的技術(shù)博客(https://z.ai/blog/glm-4.5),后續(xù)也會(huì)發(fā)布更加詳細(xì)的技術(shù)報(bào)告。
更高參數(shù)效率
GLM-4.5參數(shù)量為DeepSeek-R1的1/2、Kimi-K2的1/3,但在多項(xiàng)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中表現(xiàn)得更為出色,這得益于GLM模型的更高參數(shù)效率。在衡量模型代碼能力的SWE-benchVerified榜單上,GLM-4.5系列位于性能/參數(shù)比帕累托前沿,表明在相同規(guī)模下GLM-4.5系列實(shí)現(xiàn)了最佳性能。
低成本、高速度
在性能優(yōu)化之外,GLM-4.5系列也在成本和效率上實(shí)現(xiàn)突破,由此帶來遠(yuǎn)低于主流模型定價(jià):API調(diào)用價(jià)格低至輸入0.8元/百萬tokens,輸出2元/百萬tokens。
同時(shí),高速版本實(shí)測(cè)生成速度最高可至100tokens/秒,支持低延遲、高并發(fā)的實(shí)際部署需求,兼顧成本效益與交互體驗(yàn)。
真實(shí)體驗(yàn)
真實(shí)場(chǎng)景表現(xiàn)比榜單更重要。為評(píng)測(cè)GLM-4.5在真實(shí)場(chǎng)景AgentCoding中的效果,我們接入ClaudeCode與Claude-4-Sonnet、Kimi-K2、Qwen3-Coder進(jìn)行對(duì)比測(cè)試。測(cè)試采用52個(gè)編程開發(fā)任務(wù),涵蓋六大開發(fā)領(lǐng)域,在獨(dú)立容器環(huán)境中進(jìn)行多輪交互測(cè)試。實(shí)測(cè)結(jié)果顯示(如下圖),GLM-4.5相對(duì)其他開源模型展現(xiàn)出競(jìng)爭(zhēng)優(yōu)勢(shì),特別在工具調(diào)用可靠性和任務(wù)完成度方面表現(xiàn)突出。盡管GLM-4.5相比Claude-4-Sonnet仍有提升空間,在大部分場(chǎng)景中可以實(shí)現(xiàn)平替的效果。
為確保評(píng)測(cè)透明度,我們公布了52道題目及Agent軌跡,供業(yè)界驗(yàn)證復(fù)現(xiàn)。
Agent軌跡:https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
模型原生Agent場(chǎng)景
GLM-4.5系列能勝任全棧開發(fā)任務(wù),編寫復(fù)雜應(yīng)用、游戲、交互網(wǎng)頁(yè)。這得益于模型原生具備的在前端編寫網(wǎng)站、在后端進(jìn)行數(shù)據(jù)庫(kù)管理,以及通過工具調(diào)用接口支持任意的智能體應(yīng)用等能力。
全棧開發(fā)實(shí)際效果一個(gè)真的能搜索的搜索引擎
Z.ai版本“谷歌搜索”體驗(yàn)地址:
https://n0x9f6733jm1-deploy.space.z.ai
提示詞詳見軌跡地址:
https://chat.z.ai/s/2bd291ba-fe6a-4026-a8f4-1efa498267b2
一個(gè)真的能發(fā)彈幕的B站
Z.ai版本“B站”體驗(yàn)地址:
https://n0dba6ce0e60-deploy.space.z.ai
提示詞詳見軌跡地址:
https://chat.z.ai/s/29968fdc-53f2-4605-ae71-4ae32e920ca4
一個(gè)真的能發(fā)博的微博
Z.ai版本“微博”體驗(yàn)地址:
https://v0rb06rruyf0-deploy.space.z.ai/
提示詞詳見軌跡地址:
https://chat.z.ai/s/f78ae64c-06b7-4eee-b657-878da94fa2c7
Artifacts實(shí)際效果
GLM-4.5不僅擅長(zhǎng)處理復(fù)雜代碼,同時(shí)也具有優(yōu)秀的數(shù)據(jù)精準(zhǔn)處理、交互動(dòng)畫設(shè)計(jì)能力。以下是GLM-4.5制作的一個(gè)FlappyBird小游戲,歡迎大家前來挑戰(zhàn)。
FlappyBird體驗(yàn)地址:https://chat.z.ai/space/b0yb2613ybp0-art
提示詞詳見軌跡地址:https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323
PPT實(shí)際效果
GLM-4.5在制作PPT過程中會(huì)自主搜索資料、尋找配圖,根據(jù)材料以HTML形式編寫圖文,使信息更準(zhǔn)確、排版更靈活。除了16:9的PPT,也可以制作長(zhǎng)圖、小紅書、社交媒體封面或簡(jiǎn)歷等多比例圖片。
向下滑動(dòng)查看
如何體驗(yàn)
GLM-4.5深度優(yōu)化全棧編程與工具調(diào)用,兼容ClaudeCode、Cline、RooCode等主流代碼智能體,到智譜開放平臺(tái)即可體驗(yàn)。
國(guó)內(nèi)用戶:
https://docs.bigmodel.cn/cn/guide/develop/claude
海外用戶:
https://docs.z.ai/scenario-example/develop-tools/claude
體驗(yàn)地址:
https://chat.z.ai/
https://chatglm.cn
Github倉(cāng)庫(kù):
https://github.com/zai-org/GLM-4.5
模型倉(cāng)庫(kù):
HuggingFace:
https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
ModelScope:
https://modelscope.cn/collections/GLM-45-b8693e2a08984f