陳左琴
今天,我們帶來新一代旗艦?zāi)P虶LM-4.5,專為智能體應(yīng)用打造的基礎(chǔ)模型。HuggingFace與ModelScope平臺同步開源,模型權(quán)重遵循MITLicense。
要點如下:
GLM-4.5在包含推理、代碼、智能體的綜合能力達到開源SOTA,在真實代碼智能體的人工對比評測中,實測國內(nèi)最佳采用混合專家(MoE)架構(gòu),包括GLM-4.5:總參數(shù)量3550億,激活參數(shù)320億;GLM-4.5-Air:總參數(shù)1060億,激活參數(shù)120億;兩種模式:用于復(fù)雜推理和工具使用的思考模式,及用于即時響應(yīng)的非思考模式;
高速、低成本:API調(diào)用價格低至輸入0.8元/百萬tokens、輸出2元/百萬tokens;高速版最高可達100tokens/秒。
API已上線開放平臺BigModel.cn,可以一鍵兼容ClaudeCode框架。同時,大家也可以上智譜清言(chatglm.cn)和z.ai免費體驗滿血版。歡迎開發(fā)者、企業(yè)、用戶廣泛測試與集成,探索AGI的奧秘。
綜合性能SOTA
衡量AGI的第一性原理,是在不損失原有能力的前提下融合更多通用智能能力,GLM-4.5是我們對此理念的首次完整呈現(xiàn),并有幸取得技術(shù)突破。GLM-4.5首次在單個模型中實現(xiàn)將推理、編碼和智能體能力原生融合,以滿足智能體應(yīng)用的復(fù)雜需求。
為綜合衡量模型的通用能力,我們選擇了最具有代表性的12個評測基準,包括MMLUPro、AIME24、MATH500、SciCode、GPQA、HLE、LiveCodeBench、SWE-BenchVerified、Terminal-Bench、TAU-Bench、BFCLv3和BrowseComp。綜合平均分,GLM-4.5取得了全球模型第三、國產(chǎn)模型第一,開源模型第一。
GLM-4.5和GLM-4.5-Air使用了相似的訓(xùn)練流程:首先在15萬億token的通用數(shù)據(jù)上進行了預(yù)訓(xùn)練,此后在代碼、推理、智能體等領(lǐng)域的8萬億token數(shù)據(jù)上進行針對性訓(xùn)練,最后通過強化學(xué)習進一步增強模型推理、代碼與智能體能力。更多技術(shù)細節(jié)可參考我們的技術(shù)博客(https://z.ai/blog/glm-4.5),后續(xù)也會發(fā)布更加詳細的技術(shù)報告。
更高參數(shù)效率
GLM-4.5參數(shù)量為DeepSeek-R1的1/2、Kimi-K2的1/3,但在多項標準基準測試中表現(xiàn)得更為出色,這得益于GLM模型的更高參數(shù)效率。在衡量模型代碼能力的SWE-benchVerified榜單上,GLM-4.5系列位于性能/參數(shù)比帕累托前沿,表明在相同規(guī)模下GLM-4.5系列實現(xiàn)了最佳性能。
低成本、高速度
在性能優(yōu)化之外,GLM-4.5系列也在成本和效率上實現(xiàn)突破,由此帶來遠低于主流模型定價:API調(diào)用價格低至輸入0.8元/百萬tokens,輸出2元/百萬tokens。
同時,高速版本實測生成速度最高可至100tokens/秒,支持低延遲、高并發(fā)的實際部署需求,兼顧成本效益與交互體驗。
真實體驗
真實場景表現(xiàn)比榜單更重要。為評測GLM-4.5在真實場景AgentCoding中的效果,我們接入ClaudeCode與Claude-4-Sonnet、Kimi-K2、Qwen3-Coder進行對比測試。測試采用52個編程開發(fā)任務(wù),涵蓋六大開發(fā)領(lǐng)域,在獨立容器環(huán)境中進行多輪交互測試。實測結(jié)果顯示(如下圖),GLM-4.5相對其他開源模型展現(xiàn)出競爭優(yōu)勢,特別在工具調(diào)用可靠性和任務(wù)完成度方面表現(xiàn)突出。盡管GLM-4.5相比Claude-4-Sonnet仍有提升空間,在大部分場景中可以實現(xiàn)平替的效果。
為確保評測透明度,我們公布了52道題目及Agent軌跡,供業(yè)界驗證復(fù)現(xiàn)。
Agent軌跡:https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
模型原生Agent場景
GLM-4.5系列能勝任全棧開發(fā)任務(wù),編寫復(fù)雜應(yīng)用、游戲、交互網(wǎng)頁。這得益于模型原生具備的在前端編寫網(wǎng)站、在后端進行數(shù)據(jù)庫管理,以及通過工具調(diào)用接口支持任意的智能體應(yīng)用等能力。
全棧開發(fā)實際效果一個真的能搜索的搜索引擎
Z.ai版本“谷歌搜索”體驗地址:
https://n0x9f6733jm1-deploy.space.z.ai
提示詞詳見軌跡地址:
https://chat.z.ai/s/2bd291ba-fe6a-4026-a8f4-1efa498267b2
一個真的能發(fā)彈幕的B站
Z.ai版本“B站”體驗地址:
https://n0dba6ce0e60-deploy.space.z.ai
提示詞詳見軌跡地址:
https://chat.z.ai/s/29968fdc-53f2-4605-ae71-4ae32e920ca4
一個真的能發(fā)博的微博
Z.ai版本“微博”體驗地址:
https://v0rb06rruyf0-deploy.space.z.ai/
提示詞詳見軌跡地址:
https://chat.z.ai/s/f78ae64c-06b7-4eee-b657-878da94fa2c7
Artifacts實際效果
GLM-4.5不僅擅長處理復(fù)雜代碼,同時也具有優(yōu)秀的數(shù)據(jù)精準處理、交互動畫設(shè)計能力。以下是GLM-4.5制作的一個FlappyBird小游戲,歡迎大家前來挑戰(zhàn)。
FlappyBird體驗地址:https://chat.z.ai/space/b0yb2613ybp0-art
提示詞詳見軌跡地址:https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323
PPT實際效果
GLM-4.5在制作PPT過程中會自主搜索資料、尋找配圖,根據(jù)材料以HTML形式編寫圖文,使信息更準確、排版更靈活。除了16:9的PPT,也可以制作長圖、小紅書、社交媒體封面或簡歷等多比例圖片。
向下滑動查看
如何體驗
GLM-4.5深度優(yōu)化全棧編程與工具調(diào)用,兼容ClaudeCode、Cline、RooCode等主流代碼智能體,到智譜開放平臺即可體驗。
國內(nèi)用戶:
https://docs.bigmodel.cn/cn/guide/develop/claude
海外用戶:
https://docs.z.ai/scenario-example/develop-tools/claude
體驗地址:
https://chat.z.ai/
https://chatglm.cn
Github倉庫:
https://github.com/zai-org/GLM-4.5
模型倉庫:
HuggingFace:
https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
ModelScope:
https://modelscope.cn/collections/GLM-45-b8693e2a08984f
索以文化新作,動畫《人間最得意》開播,兩點表現(xiàn)值得推薦
與青槐相處的時間長了些,李扶搖很快便發(fā)現(xiàn)這個長得不錯的姑娘除去有著一身不錯的修為之外,其實并不是自己想的那般心思深沉,幾日相處下來,反倒是讓李扶搖覺得青槐和其他這個年齡的姑娘沒什么兩樣,這倒是讓李扶搖松了口氣,這青槐要真是那種傳說中心狠手辣的妖物,他這條小命倒是有些懸了。這幾日他照常希望你能滿意_|。
良心大作《人間最得意》,只要膽子大,沒有不可能!
聽到岳母講了這件事的后果,周秉義還能那么高興嗎?他本就是個謹慎的人,這之后他更不會得意了|。第二,為了冬梅好-。周秉義有了外遇,最受傷的肯定是冬梅。金月姬肯定不愿女兒受傷,所以她必須要把周秉義要出軌的苗頭扼殺了。第三,讓周秉義見識到她的厲害之處,“拿捏”住他。周秉義就是上門女婿,他的升遷,..
獨家收藏《人間最得意》,命運不公,我就要逆天改命!
熱門大作《人間最得意》,最讓人難忘的場面,驚喜不斷,腦洞不停!《人間最得意》作者:平生未知寒
來源:紅網(wǎng)
作者:節(jié)喬
編輯:葛承
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。