智東西作者陳駿達(dá)編輯漠影
最近幾周,國產(chǎn)開源模型迎來一波集中爆發(fā),互聯(lián)網(wǎng)大廠和AI獨(dú)角獸們紛紛甩出自家的開源王炸,接力登頂全球開源模型榜首。而就在本周,又有一款國產(chǎn)開源模型火爆全網(wǎng)。
這一模型來自素有“中國OpenAI”之稱的智譜,是其最新一代旗艦?zāi)P虶LM-4.5。發(fā)布時機(jī)也十分湊巧——剛好卡在網(wǎng)傳的OpenAI的GPT-5發(fā)布之前,同樣主打推理、編程、智能體等能力。
不過,智譜已經(jīng)憑借開源搶占了先機(jī),在國內(nèi)外提前收獲了一波流量,官宣推文獲得77萬+閱讀,還獲得開源托管平臺HuggingFaceCEO的轉(zhuǎn)發(fā)支持。
發(fā)布后不到48小時,GLM-4.5已經(jīng)沖上了HuggingFace趨勢榜第一名,成為全球最受關(guān)注的開源模型之一,GLM-4.5-Air則位列第六。硅谷BenchmarK風(fēng)投公司合伙人BilGurley發(fā)文稱:中國開源AI模型所產(chǎn)生的組合效應(yīng)非常強(qiáng)大,模型之間都可以互相改進(jìn),新模型的推出也更為容易。
值得注意的是,在WAIC前后,中國大模型的開源相繼“出圈”,月之暗面的K2、阿里的多款模型均有不俗表現(xiàn),之后智譜GLM模型接力。就在今天,Hugging-Face開源模型榜單前10名幾乎全是中國大模型,CNBC認(rèn)為,中國企業(yè)正在研發(fā)的人工智能模型不僅智能化水平提升,使用成本也持續(xù)降低。
更有一位海外AI博主制作了一張形象的梗圖,形容當(dāng)前AI競爭格局的演變:全球AI大模型現(xiàn)已分裂為以中國模型為代表的開源派,與美國模型為代表的閉源派。近期,繼DeepSeek、Qwen之后,Kimi、GLM等國產(chǎn)模型也相繼重磅開源,給中國開源模型再添猛將,仿佛形成了中國AI“開源四杰”,與國際上的GPT、Claude、Gemini、Grok組成的“閉源四強(qiáng)”分庭抗禮。
GLM-4.5定位為融合推理、編碼和智能體能力的智能體基座模型,在涵蓋推理、編程、智能體等場景的12項(xiàng)基準(zhǔn)測試中,GLM4.5的綜合性能取得了全球開源模型SOTA(即排名第一)、國產(chǎn)模型第一、全球模型第三的成績。
榜單之外,智譜還在真實(shí)場景中測試了模型的智能體編程能力,平行比較了Claude-4-Sonnet、Kimi-K2、Qwen3-Coder等模型。為確保評測透明度,智譜公布了上述測試中涉及的全部52道題目及Agent軌跡,供業(yè)界驗(yàn)證復(fù)現(xiàn)。這點(diǎn)也獲得網(wǎng)友們的贊許。
同時,智譜為模型提供了極具性價比的API定價,API調(diào)用價格低至輸入0.8元/百萬tokens、輸出2元/百萬tokens;高速版最高可達(dá)100tokens/秒。此外,用戶也可在智譜清言和z.ai上免費(fèi)使用滿血版的GLM-4.5。
近期,智東西已對GLM-4.5的多項(xiàng)能力進(jìn)行了深度體驗(yàn),這款模型在實(shí)際生產(chǎn)場景中的效用令人驚喜。
體驗(yàn)鏈接:
https://chatglm.cn
https://chat.z.ai/
模型倉庫:
https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
一、GLM-4.5一手實(shí)測:一句話打造完整數(shù)據(jù)庫,思考過程簡潔明晰
目前,已有許多國內(nèi)外網(wǎng)友上手體驗(yàn)GLM-4.5模型,用它打造AI私人健身教練、生成網(wǎng)頁游戲、3D動畫等,其編程能力、完成長序列復(fù)雜任務(wù)的能力給人留下深刻印象。
這得益于GLM-4.5本次主打的智能體能力。相較于傳統(tǒng)的問答、摘要、翻譯等靜態(tài)任務(wù),智能體任務(wù)對模型提出了更加嚴(yán)苛且立體的能力要求。集中展現(xiàn)了大模型在感知、記憶、規(guī)劃、執(zhí)行等方面的關(guān)鍵要素,也為后續(xù)多維能力提供了基礎(chǔ)。
智能體往往面向開放式環(huán)境,需要模型具備持續(xù)感知、長期規(guī)劃與自我修正能力。同時,智能體任務(wù)是一種復(fù)合流程,不僅涉及語言處理能力,還要求模型統(tǒng)籌調(diào)用工具、執(zhí)行代碼、操控接口,甚至進(jìn)行多輪交互協(xié)作,真正考驗(yàn)?zāi)P偷木C合調(diào)度能力。由此可見,智能體任務(wù)不僅是一種普通的任務(wù)形態(tài),也可以說是一種“壓力測試”。
全棧開發(fā)便是一種典型的智能體任務(wù)。為測試相關(guān)能力,智東西向GLM-4.5提出了一項(xiàng)較為完整的開發(fā)任務(wù)——使用PHP+MySQL打造一個具有增刪改查功能中英雙語的術(shù)語庫。這項(xiàng)任務(wù)的難點(diǎn)之一在于,模型需要自行規(guī)劃項(xiàng)目的框架、明晰功能需求、數(shù)據(jù)庫具體設(shè)計(jì)等元素,如真正的工程師一般全面思考、解決問題。
智東西也曾將類似的題目交給其他模型,不過,許多模型都無法對項(xiàng)目框架進(jìn)行合理規(guī)劃,甚至選擇在一個網(wǎng)頁文件中開發(fā)所有功能。因此,最終交付的結(jié)果無法部署在生產(chǎn)場景,更別提進(jìn)一步修改、擴(kuò)展了。
令人驚喜的是,GLM-4.5交付的結(jié)果較為完整,實(shí)現(xiàn)了既定的功能,并且速度較快,2分鐘左右便完成了3個核心頁面的開發(fā),最終部署的效果如下:
這一結(jié)果或許得益于GML-4.5正式開始生成代碼前清晰的思考過程:它準(zhǔn)確地判斷了項(xiàng)目性質(zhì),也明白應(yīng)該生成哪些文件,這為后續(xù)的開發(fā)提供了明確的指引。思考過程也不拖泥帶水,看上去簡潔清晰。
▲部分對話記錄:https://chat.z.ai/s/50e0d240-2034-407b-a1b3-94248dd5f449
智譜的官方Demo則展示了GLM-4.5的更多能力,例如,它可以根據(jù)用戶需求,準(zhǔn)確地復(fù)刻YouTube、谷歌、B站等網(wǎng)站的UI界面,可用于Demo展示等需求。
▲對話記錄:https://chat.z.ai/s/01079de2-a76d-41ee-b6ee-262ea36c4df7
或是打造一個讓用戶自主設(shè)計(jì)迷宮,系統(tǒng)查找路徑的網(wǎng)頁。
▲對話記錄https://chat.z.ai/s/94bd1761-d1a8-41c9-a2f4-5dacd0af88e9
這種全棧能力不僅能用于實(shí)際生產(chǎn)場景,拿來整活兒也是不錯的。智譜官方打造了一個量子功德箱,能實(shí)際互動,并將數(shù)據(jù)保存到后臺。
不過,GML-4.5開發(fā)上述項(xiàng)目的過程或許更值得深入探討。翻看智能體的執(zhí)行軌跡,可以看到,在與開發(fā)工具結(jié)合后,GLM-4.5可以更為端到端地完成任務(wù)。它先是創(chuàng)造了待辦清單,然后逐步完成任務(wù),總結(jié)開發(fā)進(jìn)展,并在用戶提出修改意見時,進(jìn)行全面的核查和調(diào)試。
▲對話記錄:https://chat.z.ai/s/1914383a-52ac-48b7-9e92-fa105be60f3e
GLM-4.5還在PPT制作這一場景展現(xiàn)出不錯的能力。它可以按照用戶指定的頁數(shù)、內(nèi)容等打造完整、美觀的PPT,并結(jié)合搜索工具豐富PPT的視覺體驗(yàn)。例如,下圖中,GLM-4.5為傳奇短跑運(yùn)動員博爾特打造了一份職業(yè)生涯回顧PPT。
▲對話記錄:https://chat.z.ai/s/544d9ac2-e373-4abc-819b-41fa6f293263
我們已經(jīng)在上述多個案例中直觀感受到了GLM-4.5的能力。那么,這款模型背后究竟依靠哪些技術(shù)創(chuàng)新,才能實(shí)現(xiàn)如此表現(xiàn)?對此,智譜在同期發(fā)布的技術(shù)博客中給出了答案。
二、參數(shù)效率實(shí)現(xiàn)突破,兼容多款編程智能體
GLM-4.5在訓(xùn)練流程整體分三步走,從底層架構(gòu)、任務(wù)選擇到優(yōu)化策略,每一階段逐步推動模型能力提升。
首先在預(yù)訓(xùn)練階段,GLM-4.5系列模型借鑒了DeepSeek-V3的MoE架構(gòu),不過在注意力機(jī)制方面仍然使用結(jié)合部分旋轉(zhuǎn)位置編碼(PartialRoPE)的分組查詢注意力(Grouped-QueryAttention)。
這一機(jī)制從ChatGLM2沿用至今,能規(guī)避多頭潛在注意力(MLA)對張量并行處理帶來的挑戰(zhàn)。智譜還配置了較多的注意力頭,因?yàn)樵搱F(tuán)隊(duì)發(fā)現(xiàn),增加注意力頭能在推理基準(zhǔn)測試中顯著提升模型性能。
GLM-4.5和GLM-4.5-Air均擁有MTP(多token預(yù)測)層,讓模型在一次前向計(jì)算中,同時預(yù)測多個后續(xù)token。實(shí)測證明,這一機(jī)制可顯著加速推理過程。
進(jìn)入中期訓(xùn)練階段后,智譜開始針對更復(fù)雜、更實(shí)用的任務(wù)進(jìn)行專項(xiàng)優(yōu)化,重點(diǎn)強(qiáng)化模型在代碼和推理方面的能力。
例如,GLM-4.5針對代碼庫場景進(jìn)行了專門優(yōu)化,學(xué)習(xí)了跨文件之間的依賴關(guān)系;整合了GitHub上的issues和PR,進(jìn)一步提升軟件工程能力;并將訓(xùn)練序列長度擴(kuò)展至32K,從而具備了處理大型代碼庫的能力。這正是第一部分案例中,GLM-4.5能夠自行查驗(yàn)和修改代碼的能力來源之一。
為了進(jìn)一步提升模型處理長上下文的能力,智譜將訓(xùn)練序列的長度從32K進(jìn)一步擴(kuò)展到了128K,并對預(yù)訓(xùn)練語料庫中的長文檔進(jìn)行了上采樣,還在這一階段加入了編程agent的軌跡。
到了后訓(xùn)練階段,GLM-4.5全面引入了強(qiáng)化學(xué)習(xí),并圍繞高級數(shù)學(xué)編程推理能力、復(fù)雜agentic任務(wù)和通用能力這三大關(guān)鍵領(lǐng)域,展開系統(tǒng)性優(yōu)化。
GLM-4.5在后訓(xùn)練階段的強(qiáng)化學(xué)習(xí)部分是按照不同任務(wù)需求有側(cè)重地展開的。針對推理任務(wù),訓(xùn)練時引入了按難度遞進(jìn)的課程學(xué)習(xí)策略,還用動態(tài)采樣溫度來控制探索強(qiáng)度,并通過基于token級熵的PPO自適應(yīng)裁剪機(jī)制,提升策略更新的穩(wěn)定性。
當(dāng)模型面對的是網(wǎng)頁搜索、代碼生成這類任務(wù)時,訓(xùn)練方式轉(zhuǎn)向了更具agentic特征的RL。數(shù)據(jù)不僅來源于自動流程,還引入了人類參與,以構(gòu)建更真實(shí)的復(fù)雜多步交互場景。
編程任務(wù)則用GitHub上的真實(shí)PR和issues來作為標(biāo)準(zhǔn),訓(xùn)練中結(jié)合準(zhǔn)確率獎勵和格式懲罰,引導(dǎo)模型學(xué)會規(guī)范、可靠地行動。
在更通用的實(shí)際應(yīng)用場景里,比如工具調(diào)用和長文檔推理,GLM-4.5又采用了不同策略來補(bǔ)強(qiáng)。函數(shù)調(diào)用任務(wù)中,使用的是雙軌策略:一部分是基于規(guī)則的逐步強(qiáng)化學(xué)習(xí),確保工具調(diào)用準(zhǔn)確性;另一部分則是通過獎勵最終任務(wù)完成效果的方式,引導(dǎo)模型學(xué)會自主規(guī)劃與調(diào)用工具。
同時,為了讓模型更好地理解和利用長文本,智譜也安排了一個專門的長上下文RL階段,讓GLM-4.5在處理大規(guī)模文檔時具備更強(qiáng)的推理能力。
總體來看,GLM-4.5的整個訓(xùn)練過程是高度工程化的:架構(gòu)上通過MoE提升計(jì)算效率,訓(xùn)練流程中針對關(guān)鍵任務(wù)進(jìn)行能力注入,強(qiáng)化學(xué)習(xí)階段進(jìn)一步拉高模型的推理上限和實(shí)用表現(xiàn),最終實(shí)現(xiàn)推理、編碼和智能體能力的原生融合。
也正是由于在工具調(diào)用、網(wǎng)頁瀏覽、軟件工程、前端編程等領(lǐng)域的優(yōu)化,GLM-4.5系列模型與ClaudeCode、Cline、RooCode等主流編程智能體實(shí)現(xiàn)了完美兼容,也可以通過工具調(diào)用接口支持任意的智能體應(yīng)用。
值得注意的是,GLM-4.5還展現(xiàn)出更高的參數(shù)效率,參數(shù)量為DeepSeek-R1的1/2、Kimi-K2的1/3,但在多項(xiàng)標(biāo)準(zhǔn)基準(zhǔn)測試中表現(xiàn)得更為出色。在衡量模型編程能力的SWE-benchVerified榜單上,GLM-4.5系列位于性能/參數(shù)比帕累托前沿,表明在相同規(guī)模下GLM-4.5系列實(shí)現(xiàn)了最佳性能。
高參數(shù)效率代表了模型架構(gòu)和訓(xùn)練策略的有效性,即在更少的參數(shù)下學(xué)到了更多、更有用的能力,這也意味著,在同等算力預(yù)算下,GLM-4.5能實(shí)現(xiàn)更高的性價比。
結(jié)語:開源大模型突圍,智能體賽道迎來“平替”時代?
當(dāng)前,以智能體為標(biāo)簽的AI產(chǎn)品層出不窮,數(shù)量龐雜,卻鮮少有產(chǎn)品能真正獲得用戶的長期使用和信賴。這在一定程度上也是所有AI產(chǎn)品的共性問題,要解決這一問題,除了進(jìn)一步打磨用戶體驗(yàn)之外,底層模型能力的提升也至關(guān)重要。
隨著Claude、GPT等海外大模型的獲取越來越困難且價格愈發(fā)昂貴,國產(chǎn)開源模型正為開發(fā)者提供更高效的本土化解決方案。
真心安利《最后一個女?dāng)繆y師》TOP3情節(jié)追到不愿放開手!
特別推薦潛力好書《最后一個女?dāng)繆y師》,甜蜜橋段讓你入坑不后悔!
姐妹家常菜館,進(jìn)進(jìn)出出的女人們??澎湃在線