超經(jīng)典!很難想這是20年前的動畫電影!小朋友看會被嚇得睡不著吧
SOTA級「原生智能體」模型。
作者|連冉
編輯|鄭玄
7月28日晚間,智譜發(fā)布了其新一代旗艦模型GLM-4.5。
與早期追求參數(shù)規(guī)模的競賽不同,GLM-4.5的發(fā)布重點體現(xiàn)在三個方面:明確面向智能體(Agent)應用的設計、通過技術優(yōu)化實現(xiàn)的高性價比,以及全面擁抱開源和開發(fā)者生態(tài)的戰(zhàn)略布局。
之前在今年4月,智譜就發(fā)布了「AutoGLM沉思」——一個能探究開放式問題,并根據(jù)結果執(zhí)行操作的自主智能體。
今天GLM-4.5的推出,不僅是智譜自身模型矩陣的一次升級,也從一個側面反映出AI行業(yè)發(fā)展的趨勢性變化:模型的價值正在進一步加速向解決實際問題、降低應用門檻的方向遷移。
01
為「智能體」而生的模型設計
衡量一個大模型的優(yōu)劣,綜合能力基準評測是業(yè)內(nèi)的通行做法。
智譜此次公布了GLM-4.5在一系列評測集上的表現(xiàn)。這份評測涵蓋了推理、代碼、科學、智能體等12個不同維度的基準測試,旨在全面評估模型的綜合素質(zhì)。
根據(jù)智譜提供的數(shù)據(jù),GLM-4.5在這些測試中的綜合得分位列全球參評模型的第三位,在開源模型中排名第一。
圖片來源:智譜
優(yōu)秀的評測成績是模型能力的基礎,但更值得關注的是其背后的設計理念。GLM-4.5從一開始就將目標鎖定在「智能體應用」。智能體要求模型具備任務理解、規(guī)劃分解、工具調(diào)用和執(zhí)行反饋等一系列復雜能力,這超出了傳統(tǒng)聊天機器人的范疇。
智譜將「在不損失原有能力的前提下融合更多通用智能能力」作為其對AGI的理解,而GLM-4.5正是這一理念的實踐。
為了支撐智能體所需的強大而靈活的能力,GLM-4.5在技術架構上做出了針對性的選擇:
混合專家(MoE)架構
GLM-4.5采用了MoE架構,總參數(shù)量達到3550億,而單次推理中被激活的參數(shù)量為320億。這種架構允許模型在保持巨大知識儲備和能力上限的同時,能根據(jù)具體任務,只調(diào)用部分「專家」網(wǎng)絡進行計算。其直接好處是在保證高質(zhì)量輸出的前提下,有效控制了推理成本和能耗,為大規(guī)模應用部署提供了可行性。
雙模式運行
模型被設計為兩種工作模式——「思考模式」和「非思考模式」。「思考模式」為復雜的推理和工具調(diào)用任務設計,允許模型投入更多計算資源進行深度規(guī)劃;「非思考模式」則服務于需要快速響應的場景。這種設計兼顧了智能體在執(zhí)行復雜任務時的「深度」與日常交互時的「速度」,是對實際應用場景需求的細致考量。
針對性數(shù)據(jù)訓練
模型的訓練過程也體現(xiàn)了其應用導向。在15萬億token的通用數(shù)據(jù)預訓練之后,團隊使用了8萬億token的高質(zhì)量數(shù)據(jù),在代碼、推理、智能體等領域進行了針對性訓練,并通過強化學習進行能力對齊。這種「通識教育+專業(yè)深造」的訓練路徑,旨在讓模型不僅知識淵博,更在特定專業(yè)領域具備解決實際問題的能力。
綜合來看,GLM-4.5并非一個泛泛的通用模型,其技術選型和訓練策略都清晰地指向了構建高效、可靠的AI智能體這一具體目標,這也反映了智譜對大模型下一階段應用形態(tài)的判斷。
02
成本、效率與生態(tài)的商業(yè)邏輯
性能是技術層面的核心,而成本和生態(tài)則是決定一項技術能否被市場廣泛接納的關鍵。GLM-4.5在此次發(fā)布中,展現(xiàn)了清晰的商業(yè)邏輯。
首先是參數(shù)效率帶來的成本優(yōu)勢。
「參數(shù)效率」是評估模型訓練水平和架構設計的重要指標,即用相對更少的計算資源實現(xiàn)同等或更優(yōu)的性能。
智譜方面的數(shù)據(jù)顯示,GLM-4.5的參數(shù)量顯著低于部分業(yè)界同類模型,但在多項基準測試中表現(xiàn)更佳。在代碼能力榜單SWE-benchVerified上,其性能與參數(shù)量的比值處于帕累托前沿,這證明了其較高的訓練和推理效率。
更高的效率直接轉(zhuǎn)化為更低的部署和使用成本。此次公布的API定價——輸入0.8元/百萬tokens,輸出2元/百萬tokens——顯著低于當前市場主流閉源模型的定價水平。配合高速版可達100tokens/秒的生成速度,GLM-4.5為開發(fā)者提供了一個兼具高性能和低成本的選擇。
圖片來源:智譜
其次是降低門檻、構建開發(fā)者生態(tài)的戰(zhàn)略意圖。
低廉的價格并非目的,而是吸引開發(fā)者、繁榮生態(tài)的手段。AI應用的普及,根本上依賴于開發(fā)者社區(qū)的創(chuàng)造力。
高昂的API費用一直是阻礙許多中小型團隊和個人開發(fā)者進行創(chuàng)新的主要障礙之一。通過大幅降低價格,能夠降低AI應用的開發(fā)門檻,激發(fā)更廣泛的創(chuàng)新。
在生態(tài)構建上,智譜采取了務實的策略。例如,GLM-4.5的API被設計為可以兼容主流的ClaudeCode框架。這一舉措使得已經(jīng)熟悉該框架的開發(fā)者能夠以極低的成本將工作流遷移至GLM-4.5,有效減少了技術選型和切換的阻力。
此外,將模型權重在HuggingFace和ModelScope等平臺遵循MITLicense進行開源,也體現(xiàn)了其開放的姿態(tài)。MITLicense對商業(yè)使用限制極少,這為企業(yè)和個人基于GLM-4.5進行二次開發(fā)和商業(yè)化應用鋪平了道路。
通過「高參數(shù)效率」實現(xiàn)「低使用成本」,再以「低成本」和「高兼容性」吸引開發(fā)者,從而構建起一個活躍的應用生態(tài)——這看起來是一條清晰且務實的商業(yè)路徑。
03
從功能演示到實際應用的距離
但衡量一個模型最終價值的,仍然是它在真實世界中的表現(xiàn)。
智譜此次展示了多個基于GLM-4.5原生能力構建的應用案例,如可交互的搜索引擎、社交媒體網(wǎng)站,以及FlappyBird小游戲等。
這些案例證明,GLM-4.5模型已經(jīng)具備了相當程度的全棧開發(fā)和工具調(diào)用能力,能夠理解需求并自主生成可運行、可交互的應用程序。
這些演示作為技術能力的驗證是成功的,它們展示了GLM-4.5在智能體方向上的潛力。不過從功能演示到穩(wěn)定可靠的生產(chǎn)級應用,仍然存在一段距離。
在智譜自己公布的真實場景對比測試中,這一點也得到了反映。測試結果顯示,GLM-4.5在編程任務中的表現(xiàn)優(yōu)于其他參評的開源模型,尤其在工具調(diào)用的可靠性方面。
但報告也同時指出,與頂尖的閉源模型Claude-4-Sonnet相比,GLM-4.5在提供近似效果的同時,仍存在一定的提升空間。
這種對比是對當前AI技術發(fā)展的普遍現(xiàn)狀的一種反應:頂尖的開源模型正在快速追趕,但在部分能力上與最前沿的閉源模型相比,尚有差距。
智能體在開放環(huán)境中的穩(wěn)定性、對模糊指令的理解能力、以及在遭遇未知情況時的糾錯和適應能力,都是決定其真正成為「可靠的工具」的核心挑戰(zhàn)。
智譜此次選擇公開評測題目和Agent軌跡,邀請行業(yè)共同驗證和改進,也體現(xiàn)了一種積極和開放的態(tài)度。
GLM-4.5的發(fā)布,沒有將重點放在參數(shù)規(guī)模的數(shù)字上,而是聚焦于智能體這一明確的應用方向,并通過技術優(yōu)化和商業(yè)策略,為開發(fā)者社區(qū)提供了一個高性價比的基礎平臺。
大模型行業(yè)正進入更加注重實際應用,更加注重成本效益,也更加注重開發(fā)者生態(tài)建設的階段。
接下來,GLM-4.5的市場表現(xiàn),以及在其之上能誕生出多少創(chuàng)新的AI原生應用,將是檢驗其成功與否的關鍵。
*頭圖來源:視覺中國
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信geekparkGO
極客一問
你如何看待智譜新一代基座模型GLM-4.5?
小米眼鏡項目負責人:小米AI眼鏡三年內(nèi),目標年出貨量超五百萬。
點贊關注極客公園視頻號,
熱推良心小說《最后一個女玄術師》,追完秒變檸檬精!??女生小說...
《最后一個女玄術師》:在葉思媚五歲那年,算命先生說她天生艷骨...
女生修真太帥了!修真文《最后一個女玄術師》天生艷骨,兩世三生