度希恩
SOTA級「原生智能體」模型。
作者|連冉
編輯|鄭玄
7月28日晚間,智譜發(fā)布了其新一代旗艦?zāi)P虶LM-4.5。
與早期追求參數(shù)規(guī)模的競賽不同,GLM-4.5的發(fā)布重點(diǎn)體現(xiàn)在三個方面:明確面向智能體(Agent)應(yīng)用的設(shè)計(jì)、通過技術(shù)優(yōu)化實(shí)現(xiàn)的高性價比,以及全面擁抱開源和開發(fā)者生態(tài)的戰(zhàn)略布局。
之前在今年4月,智譜就發(fā)布了「AutoGLM沉思」——一個能探究開放式問題,并根據(jù)結(jié)果執(zhí)行操作的自主智能體。
今天GLM-4.5的推出,不僅是智譜自身模型矩陣的一次升級,也從一個側(cè)面反映出AI行業(yè)發(fā)展的趨勢性變化:模型的價值正在進(jìn)一步加速向解決實(shí)際問題、降低應(yīng)用門檻的方向遷移。
01
為「智能體」而生的模型設(shè)計(jì)
衡量一個大模型的優(yōu)劣,綜合能力基準(zhǔn)評測是業(yè)內(nèi)的通行做法。
智譜此次公布了GLM-4.5在一系列評測集上的表現(xiàn)。這份評測涵蓋了推理、代碼、科學(xué)、智能體等12個不同維度的基準(zhǔn)測試,旨在全面評估模型的綜合素質(zhì)。
根據(jù)智譜提供的數(shù)據(jù),GLM-4.5在這些測試中的綜合得分位列全球參評模型的第三位,在開源模型中排名第一。
圖片來源:智譜
優(yōu)秀的評測成績是模型能力的基礎(chǔ),但更值得關(guān)注的是其背后的設(shè)計(jì)理念。GLM-4.5從一開始就將目標(biāo)鎖定在「智能體應(yīng)用」。智能體要求模型具備任務(wù)理解、規(guī)劃分解、工具調(diào)用和執(zhí)行反饋等一系列復(fù)雜能力,這超出了傳統(tǒng)聊天機(jī)器人的范疇。
智譜將「在不損失原有能力的前提下融合更多通用智能能力」作為其對AGI的理解,而GLM-4.5正是這一理念的實(shí)踐。
為了支撐智能體所需的強(qiáng)大而靈活的能力,GLM-4.5在技術(shù)架構(gòu)上做出了針對性的選擇:
混合專家(MoE)架構(gòu)
GLM-4.5采用了MoE架構(gòu),總參數(shù)量達(dá)到3550億,而單次推理中被激活的參數(shù)量為320億。這種架構(gòu)允許模型在保持巨大知識儲備和能力上限的同時,能根據(jù)具體任務(wù),只調(diào)用部分「專家」網(wǎng)絡(luò)進(jìn)行計(jì)算。其直接好處是在保證高質(zhì)量輸出的前提下,有效控制了推理成本和能耗,為大規(guī)模應(yīng)用部署提供了可行性。
雙模式運(yùn)行
模型被設(shè)計(jì)為兩種工作模式——「思考模式」和「非思考模式」?!杆伎寄J健篂閺?fù)雜的推理和工具調(diào)用任務(wù)設(shè)計(jì),允許模型投入更多計(jì)算資源進(jìn)行深度規(guī)劃;「非思考模式」則服務(wù)于需要快速響應(yīng)的場景。這種設(shè)計(jì)兼顧了智能體在執(zhí)行復(fù)雜任務(wù)時的「深度」與日常交互時的「速度」,是對實(shí)際應(yīng)用場景需求的細(xì)致考量。
針對性數(shù)據(jù)訓(xùn)練
模型的訓(xùn)練過程也體現(xiàn)了其應(yīng)用導(dǎo)向。在15萬億token的通用數(shù)據(jù)預(yù)訓(xùn)練之后,團(tuán)隊(duì)使用了8萬億token的高質(zhì)量數(shù)據(jù),在代碼、推理、智能體等領(lǐng)域進(jìn)行了針對性訓(xùn)練,并通過強(qiáng)化學(xué)習(xí)進(jìn)行能力對齊。這種「通識教育+專業(yè)深造」的訓(xùn)練路徑,旨在讓模型不僅知識淵博,更在特定專業(yè)領(lǐng)域具備解決實(shí)際問題的能力。
綜合來看,GLM-4.5并非一個泛泛的通用模型,其技術(shù)選型和訓(xùn)練策略都清晰地指向了構(gòu)建高效、可靠的AI智能體這一具體目標(biāo),這也反映了智譜對大模型下一階段應(yīng)用形態(tài)的判斷。
02
成本、效率與生態(tài)的商業(yè)邏輯
性能是技術(shù)層面的核心,而成本和生態(tài)則是決定一項(xiàng)技術(shù)能否被市場廣泛接納的關(guān)鍵。GLM-4.5在此次發(fā)布中,展現(xiàn)了清晰的商業(yè)邏輯。
首先是參數(shù)效率帶來的成本優(yōu)勢。
「參數(shù)效率」是評估模型訓(xùn)練水平和架構(gòu)設(shè)計(jì)的重要指標(biāo),即用相對更少的計(jì)算資源實(shí)現(xiàn)同等或更優(yōu)的性能。
智譜方面的數(shù)據(jù)顯示,GLM-4.5的參數(shù)量顯著低于部分業(yè)界同類模型,但在多項(xiàng)基準(zhǔn)測試中表現(xiàn)更佳。在代碼能力榜單SWE-benchVerified上,其性能與參數(shù)量的比值處于帕累托前沿,這證明了其較高的訓(xùn)練和推理效率。
更高的效率直接轉(zhuǎn)化為更低的部署和使用成本。此次公布的API定價——輸入0.8元/百萬tokens,輸出2元/百萬tokens——顯著低于當(dāng)前市場主流閉源模型的定價水平。配合高速版可達(dá)100tokens/秒的生成速度,GLM-4.5為開發(fā)者提供了一個兼具高性能和低成本的選擇。
圖片來源:智譜
其次是降低門檻、構(gòu)建開發(fā)者生態(tài)的戰(zhàn)略意圖。
低廉的價格并非目的,而是吸引開發(fā)者、繁榮生態(tài)的手段。AI應(yīng)用的普及,根本上依賴于開發(fā)者社區(qū)的創(chuàng)造力。
高昂的API費(fèi)用一直是阻礙許多中小型團(tuán)隊(duì)和個人開發(fā)者進(jìn)行創(chuàng)新的主要障礙之一。通過大幅降低價格,能夠降低AI應(yīng)用的開發(fā)門檻,激發(fā)更廣泛的創(chuàng)新。
在生態(tài)構(gòu)建上,智譜采取了務(wù)實(shí)的策略。例如,GLM-4.5的API被設(shè)計(jì)為可以兼容主流的ClaudeCode框架。這一舉措使得已經(jīng)熟悉該框架的開發(fā)者能夠以極低的成本將工作流遷移至GLM-4.5,有效減少了技術(shù)選型和切換的阻力。
此外,將模型權(quán)重在HuggingFace和ModelScope等平臺遵循MITLicense進(jìn)行開源,也體現(xiàn)了其開放的姿態(tài)。MITLicense對商業(yè)使用限制極少,這為企業(yè)和個人基于GLM-4.5進(jìn)行二次開發(fā)和商業(yè)化應(yīng)用鋪平了道路。
通過「高參數(shù)效率」實(shí)現(xiàn)「低使用成本」,再以「低成本」和「高兼容性」吸引開發(fā)者,從而構(gòu)建起一個活躍的應(yīng)用生態(tài)——這看起來是一條清晰且務(wù)實(shí)的商業(yè)路徑。
03
從功能演示到實(shí)際應(yīng)用的距離
但衡量一個模型最終價值的,仍然是它在真實(shí)世界中的表現(xiàn)。
智譜此次展示了多個基于GLM-4.5原生能力構(gòu)建的應(yīng)用案例,如可交互的搜索引擎、社交媒體網(wǎng)站,以及FlappyBird小游戲等。
這些案例證明,GLM-4.5模型已經(jīng)具備了相當(dāng)程度的全棧開發(fā)和工具調(diào)用能力,能夠理解需求并自主生成可運(yùn)行、可交互的應(yīng)用程序。
這些演示作為技術(shù)能力的驗(yàn)證是成功的,它們展示了GLM-4.5在智能體方向上的潛力。不過從功能演示到穩(wěn)定可靠的生產(chǎn)級應(yīng)用,仍然存在一段距離。
在智譜自己公布的真實(shí)場景對比測試中,這一點(diǎn)也得到了反映。測試結(jié)果顯示,GLM-4.5在編程任務(wù)中的表現(xiàn)優(yōu)于其他參評的開源模型,尤其在工具調(diào)用的可靠性方面。
但報(bào)告也同時指出,與頂尖的閉源模型Claude-4-Sonnet相比,GLM-4.5在提供近似效果的同時,仍存在一定的提升空間。
這種對比是對當(dāng)前AI技術(shù)發(fā)展的普遍現(xiàn)狀的一種反應(yīng):頂尖的開源模型正在快速追趕,但在部分能力上與最前沿的閉源模型相比,尚有差距。
智能體在開放環(huán)境中的穩(wěn)定性、對模糊指令的理解能力、以及在遭遇未知情況時的糾錯和適應(yīng)能力,都是決定其真正成為「可靠的工具」的核心挑戰(zhàn)。
智譜此次選擇公開評測題目和Agent軌跡,邀請行業(yè)共同驗(yàn)證和改進(jìn),也體現(xiàn)了一種積極和開放的態(tài)度。
GLM-4.5的發(fā)布,沒有將重點(diǎn)放在參數(shù)規(guī)模的數(shù)字上,而是聚焦于智能體這一明確的應(yīng)用方向,并通過技術(shù)優(yōu)化和商業(yè)策略,為開發(fā)者社區(qū)提供了一個高性價比的基礎(chǔ)平臺。
大模型行業(yè)正進(jìn)入更加注重實(shí)際應(yīng)用,更加注重成本效益,也更加注重開發(fā)者生態(tài)建設(shè)的階段。
接下來,GLM-4.5的市場表現(xiàn),以及在其之上能誕生出多少創(chuàng)新的AI原生應(yīng)用,將是檢驗(yàn)其成功與否的關(guān)鍵。
*頭圖來源:視覺中國
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信geekparkGO
極客一問
你如何看待智譜新一代基座模型GLM-4.5?
小米眼鏡項(xiàng)目負(fù)責(zé)人:小米AI眼鏡三年內(nèi),目標(biāo)年出貨量超五百萬。
點(diǎn)贊關(guān)注極客公園視頻號,
來源:紅網(wǎng)
作者:黃如嬌
編輯:燕耘豪
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。