Chovy 在 EWC 決賽中選用卡牌大師取得勝利,之前的石油杯比賽中卡牌大師八戰(zhàn)全敗,這說明了什么?
金磊發(fā)自上海量子位|公眾號QbitAI
就在剛剛,智譜GLM史上最大開源大模型來襲——
代碼和Agent,直接拿下開源模型的SOTA,推理拿下開源模型第二。
更重要的是,這是首次在單個模型中把這三個能力進(jìn)行了原生融合的那種。
它就是智譜最新發(fā)布的新一代旗艦大模型,GLM-4.5。
從評測維度來看,榜單挑選了最具代表性的12個評測基準(zhǔn),包括:
MMLUPro、AIME24、MATH500、SciCode、GPQA、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、BFCLv3和BrowseComp。
評測結(jié)果顯示,GLM-4.5的綜合平均分全球范圍內(nèi)第三(僅次于閉源的o3、Grok4),而在開源和國產(chǎn)兩個維度均取得第一的成績!
整體來看,GLM-4.5采用的是MoE架構(gòu),并且全面開源,包括2個產(chǎn)品:
GLM-4.5:總參數(shù)量3550億,激活參數(shù)為320億;GLM-4.5-Air:總參數(shù)量1060億,激活參數(shù)為120億。
除此之外,速度和價格,也是GLM-4.5的大亮點(diǎn)。
因?yàn)樗淖羁焐伤俣龋呀?jīng)是來到了100tokens/s大關(guān)了!可以說是遠(yuǎn)超、秒殺其它AI:
價格方面也是遠(yuǎn)低于目前的主流大模型:API調(diào)用價格輸入0.8元/百萬tokens,輸出2元/百萬tokens。
而且在智譜正式發(fā)布動作之前,彭博社就來了一波預(yù)告:
OpenAI在中國的對手——智譜,將發(fā)布一個新的開源模型。
這則預(yù)告字里行間所透露的信息,可見海外世界對GLM模型的關(guān)注。
然而在一番體驗(yàn)下來之后我們發(fā)現(xiàn),相比于OpenAI,智譜這次做到了更超前。
因?yàn)橛袀髀凣PT-5將在本周上線,也有網(wǎng)友已經(jīng)開始曬出“秒出網(wǎng)頁”這樣的功能。
但這一切,已經(jīng)可以在GLM-4.5這里體驗(yàn);更重要的一點(diǎn)是,開源,開源,開源。
真·言出法隨:一句話搞出能用的APP
目前,GLM-4.5已經(jīng)可以在智譜清言(chatglm.cn)和Z.ai上免費(fèi)體驗(yàn)滿血版。
例如在Z.ai上,我們只需在模型下拉菜單中選擇“GLM-4.5”即可:
然后我們現(xiàn)在就來實(shí)測一下它的能力,Prompt是這樣的:
做一個百度搜索網(wǎng)站,頁面樣式要和百度高度相似,并且可以進(jìn)行正常的搜索。
可以看到,在一句話Prompt之后,GLM-4.5就開始“唰唰唰”自己敲起了代碼。
在片刻之后,我們就得到了這樣的結(jié)果:
如何?界面樣式是不是有點(diǎn)百度搜索的味道了?
但到這兒還沒完,因?yàn)樗?,是真的能搜索!例如我們搜“智譜”,就能搜到它的官網(wǎng),點(diǎn)擊之后就可直接跳轉(zhuǎn)了:
完整過程是這樣的:
同樣的道理,我們現(xiàn)在也可以復(fù)刻一個AI版的小紅書:
做一個跟小紅書高度相似的內(nèi)容社交網(wǎng)站,對帖子可以點(diǎn)贊、收藏和發(fā)布留言。
繼續(xù)加大難度,若是想打造一個B站一樣的視頻網(wǎng)站,是否也OK呢?
穩(wěn)穩(wěn)拿捏住了,甚至還可以播放視頻、發(fā)彈幕!
想體驗(yàn)一下的小伙伴可戳:https://chat.z.ai/s/29968fdc-53f2-4605-ae71-4ae32e920ca4
當(dāng)然,除了這些炫酷的功能之外,我們還能用GLM-4.5來做一些非常實(shí)用的事,例如做教案PPT:
制作初中化學(xué)老師講課用的PPT,為人教版初三化學(xué)下冊第十單元“酸和堿”的第一課時“常見的酸和堿”制作一個教學(xué)PPT。
區(qū)別于傳統(tǒng)AIPPT通過模板套用信息的方式,GLM-4.5能夠主動收集資料、匹配合適的圖片,并基于實(shí)際素材直接生成HTML格式的圖文內(nèi)容,實(shí)現(xiàn)了更精確的信息呈現(xiàn)和更自由的版面設(shè)計(jì)。
由此可見,GLM-4.5在實(shí)用性、可用性方面,可謂是站在了一眾AI的前面。
并且為了測試GLM-4.5在真實(shí)編程場景中的表現(xiàn),智譜團(tuán)隊(duì)還把它和ClaudeCode、Claude-4-Sonnet、Kimi-K2、Qwen3-Coder放在一起做對比。
團(tuán)隊(duì)設(shè)計(jì)了52個編程任務(wù),覆蓋了六個主要的開發(fā)方向,讓這些模型在獨(dú)立的測試環(huán)境中進(jìn)行多輪互動測試。
從實(shí)際測試結(jié)果來看,GLM-4.5比其他開源模型表現(xiàn)更好,尤其是在調(diào)用工具的穩(wěn)定性和完成任務(wù)的成功率上優(yōu)勢明顯。
例如Claude4都搞不出來的《羊了個羊》,現(xiàn)在GLM-4.5一句話就能搞定:https://cwb660.github.io/match-3-game/
雖然GLM-4.5與Claude-4-Sonnet相比還有改進(jìn)的余地,但在大多數(shù)使用場景下已經(jīng)可以達(dá)到替代效果。
與此同時,團(tuán)隊(duì)為確保評測透明度,還公布了52道題目及Agent軌跡(https://huggingface.co/datasets/zai-org/CC-Bench-trajectories),供業(yè)界驗(yàn)證復(fù)現(xiàn)。
技術(shù)博客也已發(fā)布
正如我們剛才提到的,GLM-4.5采用的是MoE架構(gòu),以提升訓(xùn)練和推理的計(jì)算效率;MoE層采用了無損均衡路由機(jī)制和Sigmoid門控。
在模型結(jié)構(gòu)設(shè)計(jì)上,相較于DeepSeek-V3和KimiK2,智譜團(tuán)隊(duì)選擇在縮小模型寬度(包括隱藏維度和路由專家數(shù)量)的同時增加深度(層數(shù)),因?yàn)閷?shí)驗(yàn)發(fā)現(xiàn)更深的模型在推理任務(wù)中表現(xiàn)更優(yōu)。
在自注意力模塊中,團(tuán)隊(duì)引入了分組查詢的RoPE位置編碼方式,并使用了2.5倍數(shù)量的注意力頭(以5120的隱藏維度為例,設(shè)置了96個頭)。
有趣的是,盡管增加頭數(shù)并未在訓(xùn)練損失上帶來顯著優(yōu)勢,但在MMLU和BBH等推理基準(zhǔn)測試中表現(xiàn)持續(xù)優(yōu)于低頭數(shù)模型。
在優(yōu)化器選擇上,智譜團(tuán)隊(duì)采用了Muon,以加快收斂速度并支持更大的批量大小。同時,為了穩(wěn)定注意力對數(shù)范圍,引入了QK-Norm技術(shù)。
此外,在GLM-4.5與GLM-4.5-Air中,團(tuán)隊(duì)還加入了MTP(多標(biāo)記預(yù)測)層,以支持推理階段的推測式解碼。
智譜的基礎(chǔ)模型經(jīng)歷了多個階段的訓(xùn)練。
在預(yù)訓(xùn)練階段,模型首先在15T的通用預(yù)訓(xùn)練語料上進(jìn)行訓(xùn)練,隨后在7T的代碼與推理相關(guān)語料上繼續(xù)訓(xùn)練。在完成基礎(chǔ)預(yù)訓(xùn)練后,團(tuán)隊(duì)又引入了若干額外階段,以進(jìn)一步提升模型在關(guān)鍵下游任務(wù)中的表現(xiàn)。
不同于此前基于大規(guī)模通用文檔的預(yù)訓(xùn)練,這些后續(xù)階段主要依托中等規(guī)模的特定領(lǐng)域數(shù)據(jù)集,包括各類指令類數(shù)據(jù)。
為支持GLM-4.5等大規(guī)模模型所需的高效強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,智譜團(tuán)隊(duì)設(shè)計(jì)、開發(fā)并開源了強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施Slime。
該系統(tǒng)在靈活性、效率和可擴(kuò)展性方面均經(jīng)過精心打磨,智譜也積極鼓勵社區(qū)廣泛使用并參與共建。
Slime的主要創(chuàng)新旨在克服常見的強(qiáng)化學(xué)習(xí)(RL)瓶頸,尤其是在復(fù)雜的智能體任務(wù)中。
靈活的混合訓(xùn)練架構(gòu):Slime的核心優(yōu)勢在于其多功能的混合架構(gòu)。它支持同步、共置訓(xùn)練,適用于傳統(tǒng)應(yīng)用如推理和通用強(qiáng)化學(xué)習(xí),同時還支持分散的異步訓(xùn)練模式。這種異步范式對于高級智能體強(qiáng)化學(xué)習(xí)至關(guān)重要,因?yàn)閿?shù)據(jù)生成可能是一個緩慢的外部過程。通過解耦訓(xùn)練和數(shù)據(jù)收集,它確保訓(xùn)練GPU保持完全飽和,最大化硬件利用率。解耦的面向智能體設(shè)計(jì):智能體強(qiáng)化學(xué)習(xí)常常在環(huán)境回滾期間遇到緩慢且長尾延遲分布,嚴(yán)重限制了訓(xùn)練吞吐量。為了解決這一問題,Slime實(shí)現(xiàn)了一個完全解耦的基礎(chǔ)設(shè)施,將回滾引擎與訓(xùn)練引擎分離。這些組件在不同硬件上獨(dú)立運(yùn)行,將數(shù)據(jù)生成瓶頸轉(zhuǎn)變?yōu)椴⑿械姆亲枞^程。這種設(shè)計(jì)對于加速長視野智能體任務(wù)至關(guān)重要。使用混合精度加速數(shù)據(jù)生成:為了進(jìn)一步提高吞吐量,Slime采用混合精度推理加速回滾。它策略性地在數(shù)據(jù)生成中使用高效的FP8格式,同時在模型訓(xùn)練循環(huán)中保持BF16的穩(wěn)定性。這種技術(shù)顯著提高了數(shù)據(jù)生成速度,同時不會影響訓(xùn)練質(zhì)量。這種內(nèi)聚的設(shè)計(jì)使得slime能夠無縫集成多個智能體框架,支持多樣化的任務(wù),并通過統(tǒng)一且強(qiáng)大的接口高效管理長期展開過程。
對于LLM來說,通過自我生成的探索性體驗(yàn)迭代增強(qiáng)其策略的后訓(xùn)練過程至關(guān)重要。強(qiáng)化學(xué)習(xí)已成為推動模型能力邊界的關(guān)鍵步驟。
對于GLM-4.5,除了整合GLM-4-0414的通用能力和GLM-Z1的推理能力外,團(tuán)隊(duì)特別增強(qiáng)了智能體(Agent)能力,包括智能體編程、深度搜索和通用工具使用。
這個過程從對精選的推理數(shù)據(jù)和綜合的智能體場景進(jìn)行監(jiān)督微調(diào)開始,隨后通過專門的強(qiáng)化學(xué)習(xí)階段培養(yǎng)專家模型。
對于推理,團(tuán)隊(duì)在整個64K上下文中進(jìn)行單階段強(qiáng)化學(xué)習(xí),并采用基于難度的課程設(shè)計(jì),團(tuán)隊(duì)發(fā)現(xiàn)這比漸進(jìn)式調(diào)度更為優(yōu)越。智譜引入了改進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù)以確保穩(wěn)定性:動態(tài)采樣溫度以平衡探索和利用,以及針對STEM問題的自適應(yīng)裁剪策略,以實(shí)現(xiàn)穩(wěn)健的策略更新。對于智能體任務(wù),訓(xùn)練正在兩個可驗(yàn)證的任務(wù)上進(jìn)行:基于信息檢索的問答和軟件工程。智譜開發(fā)可擴(kuò)展的策略,通過人機(jī)交互提取并選擇性模糊化網(wǎng)頁內(nèi)容來合成基于搜索的問答對。編碼任務(wù)由真實(shí)世界軟件工程任務(wù)的執(zhí)行反饋驅(qū)動。
由此可見,GLM-4.5的高性能并非單一技術(shù)的突破,而是一個系統(tǒng)性工程的成果。
并且從參數(shù)效率角度來看,GLM-4.5的參數(shù)量僅為DeepSeek-R1的一半、Kimi-K2的三分之一,卻在多項(xiàng)標(biāo)準(zhǔn)基準(zhǔn)測試中展現(xiàn)出更優(yōu)異的表現(xiàn),充分體現(xiàn)了GLM模型卓越的參數(shù)效率。
特別值得關(guān)注的是,GLM-4.5-Air憑借106B總參數(shù)/12B激活參數(shù)的配置實(shí)現(xiàn)了顯著突破,在推理基準(zhǔn)上達(dá)到了與Gemini2.5Flash、Claude4Sonnet相媲美的水平。
在代碼能力評估的權(quán)威榜單SWE-benchVerified上,GLM-4.5系列占據(jù)性能/參數(shù)比帕累托前沿,證明了其在同等規(guī)模下的最優(yōu)性能表現(xiàn)。
智譜,給國產(chǎn)開源大模型上了個大分
如果說之前的AI競賽是“百模大戰(zhàn)”,那么智譜GLM-4.5的發(fā)布,則可以說是為這場競賽的下半場樹立了新的標(biāo)桿。
它不僅在多個關(guān)鍵評測維度上取得了國產(chǎn)和開源領(lǐng)域的冠軍,更重要的是,它向我們展示了一種更高效、更融合、也更具前瞻性的技術(shù)路徑。
在各大廠商紛紛追求千億甚至萬億參數(shù)的“軍備競賽”中,智譜展現(xiàn)了不同的思考。GLM-4.5憑借其先進(jìn)的MoE(混合專家)架構(gòu)和精巧的系統(tǒng)工程設(shè)計(jì),以遠(yuǎn)少于同行的參數(shù)量,實(shí)現(xiàn)了超越性的性能。
從評測結(jié)果來看,無論是對標(biāo)DeepSeek-R1還是Kimi-K2,GLM-4.5都以更小的“身軀”爆發(fā)出了更強(qiáng)的能量。
當(dāng)業(yè)界還在紛紛猜測和等待OpenAI的GPT-5將帶來何種革命性功能時,智譜已經(jīng)將類似的、甚至更強(qiáng)大的Agent能力通過GLM-4.5直接開源,并開放給所有用戶免費(fèi)體驗(yàn)。
這種“不等、不靠”,用自研實(shí)力走在行業(yè)“傳聞”之前的做法,本身就是一種自信和超前。
總而言之,GLM-4.5的問世,不僅僅是智譜自身的一次技術(shù)躍遷,更是為國產(chǎn)開源大模型領(lǐng)域注入了一劑強(qiáng)心針。
它用硬核的性能、前瞻的架構(gòu)和開放的姿態(tài),證明了中國AI力量不僅能夠追趕,更具備了定義下一代模型標(biāo)準(zhǔn)的能力。
這無疑是給國產(chǎn)AI,乃至全球開源社區(qū),上了一個“大分”。
最后,體驗(yàn)地址放下面了,感興趣的小伙伴可以嘗鮮了哦~
https://chat.z.ai/
技術(shù)報告地址:
https://z.ai/blog/glm-4.5
OneMoreThing:
智譜還給程序員們發(fā)福利了——
50塊就能包月爽用GLM-4.5,調(diào)用量無上限!
名額有限,快去搶吧~