為什么有的作家沒有經(jīng)歷體驗過那樣的生活,依然可以創(chuàng)造出描寫特別逼真,真實性特別高的小說?
少林寺:釋永信涉嫌刑事犯罪、嚴重違反佛教戒律,正接受多部門聯(lián)合調(diào)查
金磊發(fā)自上海量子位|公眾號QbitAI
就在剛剛,智譜GLM史上最大開源大模型來襲——
代碼和Agent,直接拿下開源模型的SOTA,推理拿下開源模型第二。
更重要的是,這是首次在單個模型中把這三個能力進行了原生融合的那種。
它就是智譜最新發(fā)布的新一代旗艦大模型,GLM-4.5。
從評測維度來看,榜單挑選了最具代表性的12個評測基準,包括:
MMLUPro、AIME24、MATH500、SciCode、GPQA、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、BFCLv3和BrowseComp。
評測結果顯示,GLM-4.5的綜合平均分全球范圍內(nèi)第三(僅次于閉源的o3、Grok4),而在開源和國產(chǎn)兩個維度均取得第一的成績!
整體來看,GLM-4.5采用的是MoE架構,并且全面開源,包括2個產(chǎn)品:
GLM-4.5:總參數(shù)量3550億,激活參數(shù)為320億;GLM-4.5-Air:總參數(shù)量1060億,激活參數(shù)為120億。
除此之外,速度和價格,也是GLM-4.5的大亮點。
因為它的最快生成速度,已經(jīng)是來到了100tokens/s大關了!可以說是遠超、秒殺其它AI:
價格方面也是遠低于目前的主流大模型:API調(diào)用價格輸入0.8元/百萬tokens,輸出2元/百萬tokens。
而且在智譜正式發(fā)布動作之前,彭博社就來了一波預告:
OpenAI在中國的對手——智譜,將發(fā)布一個新的開源模型。
這則預告字里行間所透露的信息,可見海外世界對GLM模型的關注。
然而在一番體驗下來之后我們發(fā)現(xiàn),相比于OpenAI,智譜這次做到了更超前。
因為有傳聞GPT-5將在本周上線,也有網(wǎng)友已經(jīng)開始曬出“秒出網(wǎng)頁”這樣的功能。
但這一切,已經(jīng)可以在GLM-4.5這里體驗;更重要的一點是,開源,開源,開源。
真·言出法隨:一句話搞出能用的APP
目前,GLM-4.5已經(jīng)可以在智譜清言(chatglm.cn)和Z.ai上免費體驗滿血版。
例如在Z.ai上,我們只需在模型下拉菜單中選擇“GLM-4.5”即可:
然后我們現(xiàn)在就來實測一下它的能力,Prompt是這樣的:
做一個百度搜索網(wǎng)站,頁面樣式要和百度高度相似,并且可以進行正常的搜索。
可以看到,在一句話Prompt之后,GLM-4.5就開始“唰唰唰”自己敲起了代碼。
在片刻之后,我們就得到了這樣的結果:
如何?界面樣式是不是有點百度搜索的味道了?
但到這兒還沒完,因為它,是真的能搜索!例如我們搜“智譜”,就能搜到它的官網(wǎng),點擊之后就可直接跳轉了:
完整過程是這樣的:
同樣的道理,我們現(xiàn)在也可以復刻一個AI版的小紅書:
做一個跟小紅書高度相似的內(nèi)容社交網(wǎng)站,對帖子可以點贊、收藏和發(fā)布留言。
繼續(xù)加大難度,若是想打造一個B站一樣的視頻網(wǎng)站,是否也OK呢?
穩(wěn)穩(wěn)拿捏住了,甚至還可以播放視頻、發(fā)彈幕!
想體驗一下的小伙伴可戳:https://chat.z.ai/s/29968fdc-53f2-4605-ae71-4ae32e920ca4
當然,除了這些炫酷的功能之外,我們還能用GLM-4.5來做一些非常實用的事,例如做教案PPT:
制作初中化學老師講課用的PPT,為人教版初三化學下冊第十單元“酸和堿”的第一課時“常見的酸和堿”制作一個教學PPT。
區(qū)別于傳統(tǒng)AIPPT通過模板套用信息的方式,GLM-4.5能夠主動收集資料、匹配合適的圖片,并基于實際素材直接生成HTML格式的圖文內(nèi)容,實現(xiàn)了更精確的信息呈現(xiàn)和更自由的版面設計。
由此可見,GLM-4.5在實用性、可用性方面,可謂是站在了一眾AI的前面。
并且為了測試GLM-4.5在真實編程場景中的表現(xiàn),智譜團隊還把它和ClaudeCode、Claude-4-Sonnet、Kimi-K2、Qwen3-Coder放在一起做對比。
團隊設計了52個編程任務,覆蓋了六個主要的開發(fā)方向,讓這些模型在獨立的測試環(huán)境中進行多輪互動測試。
從實際測試結果來看,GLM-4.5比其他開源模型表現(xiàn)更好,尤其是在調(diào)用工具的穩(wěn)定性和完成任務的成功率上優(yōu)勢明顯。
例如Claude4都搞不出來的《羊了個羊》,現(xiàn)在GLM-4.5一句話就能搞定:https://cwb660.github.io/match-3-game/
雖然GLM-4.5與Claude-4-Sonnet相比還有改進的余地,但在大多數(shù)使用場景下已經(jīng)可以達到替代效果。
與此同時,團隊為確保評測透明度,還公布了52道題目及Agent軌跡(https://huggingface.co/datasets/zai-org/CC-Bench-trajectories),供業(yè)界驗證復現(xiàn)。
技術博客也已發(fā)布
正如我們剛才提到的,GLM-4.5采用的是MoE架構,以提升訓練和推理的計算效率;MoE層采用了無損均衡路由機制和Sigmoid門控。
在模型結構設計上,相較于DeepSeek-V3和KimiK2,智譜團隊選擇在縮小模型寬度(包括隱藏維度和路由專家數(shù)量)的同時增加深度(層數(shù)),因為實驗發(fā)現(xiàn)更深的模型在推理任務中表現(xiàn)更優(yōu)。
在自注意力模塊中,團隊引入了分組查詢的RoPE位置編碼方式,并使用了2.5倍數(shù)量的注意力頭(以5120的隱藏維度為例,設置了96個頭)。
有趣的是,盡管增加頭數(shù)并未在訓練損失上帶來顯著優(yōu)勢,但在MMLU和BBH等推理基準測試中表現(xiàn)持續(xù)優(yōu)于低頭數(shù)模型。
在優(yōu)化器選擇上,智譜團隊采用了Muon,以加快收斂速度并支持更大的批量大小。同時,為了穩(wěn)定注意力對數(shù)范圍,引入了QK-Norm技術。
此外,在GLM-4.5與GLM-4.5-Air中,團隊還加入了MTP(多標記預測)層,以支持推理階段的推測式解碼。
智譜的基礎模型經(jīng)歷了多個階段的訓練。
在預訓練階段,模型首先在15T的通用預訓練語料上進行訓練,隨后在7T的代碼與推理相關語料上繼續(xù)訓練。在完成基礎預訓練后,團隊又引入了若干額外階段,以進一步提升模型在關鍵下游任務中的表現(xiàn)。
不同于此前基于大規(guī)模通用文檔的預訓練,這些后續(xù)階段主要依托中等規(guī)模的特定領域數(shù)據(jù)集,包括各類指令類數(shù)據(jù)。
為支持GLM-4.5等大規(guī)模模型所需的高效強化學習(RL)訓練,智譜團隊設計、開發(fā)并開源了強化學習基礎設施Slime。
該系統(tǒng)在靈活性、效率和可擴展性方面均經(jīng)過精心打磨,智譜也積極鼓勵社區(qū)廣泛使用并參與共建。
Slime的主要創(chuàng)新旨在克服常見的強化學習(RL)瓶頸,尤其是在復雜的智能體任務中。
靈活的混合訓練架構:Slime的核心優(yōu)勢在于其多功能的混合架構。它支持同步、共置訓練,適用于傳統(tǒng)應用如推理和通用強化學習,同時還支持分散的異步訓練模式。這種異步范式對于高級智能體強化學習至關重要,因為數(shù)據(jù)生成可能是一個緩慢的外部過程。通過解耦訓練和數(shù)據(jù)收集,它確保訓練GPU保持完全飽和,最大化硬件利用率。解耦的面向智能體設計:智能體強化學習常常在環(huán)境回滾期間遇到緩慢且長尾延遲分布,嚴重限制了訓練吞吐量。為了解決這一問題,Slime實現(xiàn)了一個完全解耦的基礎設施,將回滾引擎與訓練引擎分離。這些組件在不同硬件上獨立運行,將數(shù)據(jù)生成瓶頸轉變?yōu)椴⑿械姆亲枞^程。這種設計對于加速長視野智能體任務至關重要。使用混合精度加速數(shù)據(jù)生成:為了進一步提高吞吐量,Slime采用混合精度推理加速回滾。它策略性地在數(shù)據(jù)生成中使用高效的FP8格式,同時在模型訓練循環(huán)中保持BF16的穩(wěn)定性。這種技術顯著提高了數(shù)據(jù)生成速度,同時不會影響訓練質(zhì)量。這種內(nèi)聚的設計使得slime能夠無縫集成多個智能體框架,支持多樣化的任務,并通過統(tǒng)一且強大的接口高效管理長期展開過程。
對于LLM來說,通過自我生成的探索性體驗迭代增強其策略的后訓練過程至關重要。強化學習已成為推動模型能力邊界的關鍵步驟。
對于GLM-4.5,除了整合GLM-4-0414的通用能力和GLM-Z1的推理能力外,團隊特別增強了智能體(Agent)能力,包括智能體編程、深度搜索和通用工具使用。
這個過程從對精選的推理數(shù)據(jù)和綜合的智能體場景進行監(jiān)督微調(diào)開始,隨后通過專門的強化學習階段培養(yǎng)專家模型。
對于推理,團隊在整個64K上下文中進行單階段強化學習,并采用基于難度的課程設計,團隊發(fā)現(xiàn)這比漸進式調(diào)度更為優(yōu)越。智譜引入了改進的強化學習技術以確保穩(wěn)定性:動態(tài)采樣溫度以平衡探索和利用,以及針對STEM問題的自適應裁剪策略,以實現(xiàn)穩(wěn)健的策略更新。對于智能體任務,訓練正在兩個可驗證的任務上進行:基于信息檢索的問答和軟件工程。智譜開發(fā)可擴展的策略,通過人機交互提取并選擇性模糊化網(wǎng)頁內(nèi)容來合成基于搜索的問答對。編碼任務由真實世界軟件工程任務的執(zhí)行反饋驅(qū)動。
由此可見,GLM-4.5的高性能并非單一技術的突破,而是一個系統(tǒng)性工程的成果。
并且從參數(shù)效率角度來看,GLM-4.5的參數(shù)量僅為DeepSeek-R1的一半、Kimi-K2的三分之一,卻在多項標準基準測試中展現(xiàn)出更優(yōu)異的表現(xiàn),充分體現(xiàn)了GLM模型卓越的參數(shù)效率。
特別值得關注的是,GLM-4.5-Air憑借106B總參數(shù)/12B激活參數(shù)的配置實現(xiàn)了顯著突破,在推理基準上達到了與Gemini2.5Flash、Claude4Sonnet相媲美的水平。
在代碼能力評估的權威榜單SWE-benchVerified上,GLM-4.5系列占據(jù)性能/參數(shù)比帕累托前沿,證明了其在同等規(guī)模下的最優(yōu)性能表現(xiàn)。
智譜,給國產(chǎn)開源大模型上了個大分
如果說之前的AI競賽是“百模大戰(zhàn)”,那么智譜GLM-4.5的發(fā)布,則可以說是為這場競賽的下半場樹立了新的標桿。
它不僅在多個關鍵評測維度上取得了國產(chǎn)和開源領域的冠軍,更重要的是,它向我們展示了一種更高效、更融合、也更具前瞻性的技術路徑。
在各大廠商紛紛追求千億甚至萬億參數(shù)的“軍備競賽”中,智譜展現(xiàn)了不同的思考。GLM-4.5憑借其先進的MoE(混合專家)架構和精巧的系統(tǒng)工程設計,以遠少于同行的參數(shù)量,實現(xiàn)了超越性的性能。
從評測結果來看,無論是對標DeepSeek-R1還是Kimi-K2,GLM-4.5都以更小的“身軀”爆發(fā)出了更強的能量。
當業(yè)界還在紛紛猜測和等待OpenAI的GPT-5將帶來何種革命性功能時,智譜已經(jīng)將類似的、甚至更強大的Agent能力通過GLM-4.5直接開源,并開放給所有用戶免費體驗。
這種“不等、不靠”,用自研實力走在行業(yè)“傳聞”之前的做法,本身就是一種自信和超前。
總而言之,GLM-4.5的問世,不僅僅是智譜自身的一次技術躍遷,更是為國產(chǎn)開源大模型領域注入了一劑強心針。
它用硬核的性能、前瞻的架構和開放的姿態(tài),證明了中國AI力量不僅能夠追趕,更具備了定義下一代模型標準的能力。
這無疑是給國產(chǎn)AI,乃至全球開源社區(qū),上了一個“大分”。
最后,體驗地址放下面了,感興趣的小伙伴可以嘗鮮了哦~
https://chat.z.ai/
技術報告地址:
https://z.ai/blog/glm-4.5
OneMoreThing:
智譜還給程序員們發(fā)福利了——
50塊就能包月爽用GLM-4.5,調(diào)用量無上限!
名額有限,快去搶吧~
《都市之最強狂兵》:亦正亦邪!身負枷鎖執(zhí)掌生殺命輪!
人氣小說《都市最強狂兵》,只要膽子大,沒有不可能!
陳六合,都市最強狂兵,亦正亦邪的國之重器