作者:周源/華爾街見聞
7月28日,智譜AI發(fā)布旗艦?zāi)P虶LM-4.5并開源。GLM-4.5是一款專為智能體應(yīng)用研發(fā)的基礎(chǔ)模型,在性能、成本控制與多能力融合等方面均有出色表現(xiàn)。
在這些技術(shù)突破的背后,哪些因素起了支撐作用?
智譜AI核心團隊主要來自清華大學(xué)KEG(知識工程)實驗室:董事長劉德兵、CEO張鵬和總裁王紹蘭均為KEG實驗室核心成員,張鵬和王紹蘭同為清華創(chuàng)新領(lǐng)軍工程博士,首席科學(xué)家唐杰曾任清華大學(xué)計算機系教授。
從GLM-1到GLM-4.5經(jīng)歷四年多迭代。
早期(2021年)GLM模型(10B)就已探索了Transformer架構(gòu)的優(yōu)化,2022年推出參數(shù)規(guī)模達130B的GLM-130B,2023年推出的GLM-3嘗試了混合專家(MoE)架構(gòu)的輕量化設(shè)計,為后續(xù)參數(shù)效率提升奠定基礎(chǔ),其小步快跑的迭代模式,讓團隊對模型架構(gòu)的理解不斷深化。
GLM系列的LLM(大語言模型:LargeLanguageModel)基于Transformer架構(gòu)構(gòu)建。
GLM-130B采用DeepNorm(一種用于穩(wěn)定深層Transformer模型訓(xùn)練的歸一化方法)作為層歸一化(LayerNormalization)策略,并在前饋網(wǎng)絡(luò)(FFN)中使用旋轉(zhuǎn)位置嵌入(RoPE),以及配備GeLU激活函數(shù)的門控線性單元(GLU:GatedLinearUnit,常用于增強模型對特征的選擇性和處理)。
這些都表明早期GLM模型對Transformer架構(gòu)做了探索與優(yōu)化。
之后的GLM-3,采用獨創(chuàng)的多階段增強預(yù)訓(xùn)練方法,基于當(dāng)時最新的高效動態(tài)推理和顯存優(yōu)化技術(shù),其推理框架在相同硬件和模型條件下,相較于當(dāng)時最佳的開源實現(xiàn),推理速度提升2-3倍,推理成本降低1倍。
這說明GLM-3在模型架構(gòu)優(yōu)化等方面有顯著進展,為后續(xù)參數(shù)效率提升奠定了基礎(chǔ),也有助于對不同任務(wù)的特征分布,形成長期數(shù)據(jù)積累。
業(yè)界有些團隊或成立時間較短,或中途轉(zhuǎn)向大模型研發(fā),缺乏這種持續(xù)的技術(shù)沉淀,難以在架構(gòu)細節(jié)上實現(xiàn)精細化優(yōu)化。
多數(shù)團隊在大模型研發(fā)中更傾向于堆參數(shù)量的密集型架構(gòu),認為參數(shù)量與性能呈正相關(guān)。2023年到2024年底,“百模大戰(zhàn)”期間,眾多企業(yè)將參數(shù)量、評測分數(shù)作為核心指標,試圖通過擴大模型規(guī)模來提升模型能力。
大模型中激活參數(shù)占比與模型架構(gòu)、稀疏激活技術(shù)等相關(guān),若企業(yè)過于追求參數(shù)量而未優(yōu)化架構(gòu)和技術(shù),可能導(dǎo)致激活參數(shù)占比低。
智譜AI做法與眾不同,從GLM-2開始,堅持“高效參數(shù)”路線:不去盲目擴大總參數(shù)量,而是通過優(yōu)化專家模塊的協(xié)同機制提升效率。
比如GLM-4.5的3550億總參數(shù)中,激活參數(shù)320億,占比約9%,每個專家模塊僅負責(zé)特定領(lǐng)域任務(wù)(如代碼模塊專注Python與JavaScript,推理模塊專注數(shù)學(xué)與邏輯),模塊間通過輕量化路由層銜接,避免密集型架構(gòu)中參數(shù)冗余的問題。
同時發(fā)布的還有GLM-4.5-Air,總參數(shù)1060億,激活參數(shù)120億,激活占比約11%。
這種路徑需要更細致的拆解任務(wù)類型,而部分團隊因擔(dān)心架構(gòu)復(fù)雜度上升導(dǎo)致研發(fā)周期延長,仍選擇更穩(wěn)妥的密集型架構(gòu)。
至于參數(shù)激活占比,這個關(guān)系到調(diào)用推理的商業(yè)成本:相同參數(shù)量下,激活參數(shù)占比低意味著更多參數(shù)未有效參與推理計算,造成算力浪費,導(dǎo)致推理成本上升。
GLM-4.5之所以能做到“參數(shù)效率翻倍,API價格僅為Claude(美國人工智能初創(chuàng)公司Anthropic發(fā)布的大模型家族)的1/10(輸入0.8元/百萬tokens、輸出2元/百萬tokens),速度超100tokens/秒”,就因為激活參數(shù)占比較高。
GLM-4.5的訓(xùn)練數(shù)據(jù)采用“通用+垂直”的雙層結(jié)構(gòu):底層是15萬億token的通用文本(與多數(shù)團隊類似),上層是8萬億token的垂直領(lǐng)域數(shù)據(jù),且按“推理-代碼-智能體”三類任務(wù)單獨標注。
插一句:在深度學(xué)習(xí)尤其是自然語言處理(NLP)領(lǐng)域,token是指文本中的最小有意義的邏輯單元,也是模型用來表示自然語言文本的基本單位,還是模型計費單元,類似于計算存儲和處理二進制數(shù)據(jù)的基本單位——字節(jié)(byte)。
GLM-4.5的標注方法并非簡單分類,而是為每個任務(wù)設(shè)計專屬的訓(xùn)練目標,比如推理任務(wù)側(cè)重邏輯鏈完整性,代碼任務(wù)側(cè)重語法正確性。
智譜AI是國內(nèi)首批推進大模型開源的企業(yè)之一,2023年GLM-2開源后積累規(guī)模龐大的開發(fā)者社區(qū)。這些開發(fā)者不僅反饋bug,更貢獻了大量輕量化部署方案。GLM-4.5的“思考/非思考模式”切換功能,底層調(diào)度算法很可能來自社區(qū)開發(fā)者的優(yōu)化建議。
智譜AI的官方通稿稱,“首次實現(xiàn)推理、代碼、Agent等多能力原生融合”,那么多能力融合的技術(shù)壁壘是什么?為什么此前業(yè)界沒有同類模型能力?
多能力融合需解決模塊協(xié)同難題:推理模塊的邏輯思維與代碼模塊的語法規(guī)則分屬不同認知范式,強行融合易導(dǎo)致能力稀釋。
此前業(yè)界有些團隊嘗試通過“拼接式”融合(在推理模型后嫁接代碼模塊)實現(xiàn),但模塊間缺乏共享參數(shù),導(dǎo)致響應(yīng)速度大幅下降。
GLM-4.5采用了統(tǒng)一底層架構(gòu),需要從模型設(shè)計初期就規(guī)劃參數(shù)共享機制,這對架構(gòu)設(shè)計能力要求極高,多數(shù)團隊暫未突破這一技術(shù)瓶頸。
若以此說業(yè)界有些團隊技術(shù)能力較差,也有失偏頗;多數(shù)情況下,很多技術(shù)團隊受商業(yè)化的壓力較大,因此更傾向于快速推出閉源商業(yè)模型意圖變現(xiàn),導(dǎo)致研發(fā)周期被壓縮,測試時間有限,在推動多能力融合時出現(xiàn)穩(wěn)定性問題,可感知的這類問題,比如連續(xù)調(diào)用工具時概率性崩潰。
自2019年成立以來,智譜AI經(jīng)歷了至少11輪融資,故而資金壓力應(yīng)當(dāng)不是很大,看上去在優(yōu)化架構(gòu)時顯得很有耐心,能用較長時間做多能力協(xié)同的專項優(yōu)化,這種耐心在當(dāng)前追求短期回報的行業(yè)環(huán)境中較為稀缺。
智譜GLM-4.5的突破,本質(zhì)是技術(shù)積累、路徑選擇與生態(tài)協(xié)同的綜合結(jié)果。
這個多能力融合大模型的推出,表明大模型競爭已從單點參數(shù)規(guī)模轉(zhuǎn)向系統(tǒng)效率與生態(tài)活力,這或許為行業(yè)提供了新的發(fā)展參照和性能評價標準。
我們拼盡全力,也只是為了過好平淡凡的一生
歌曲《無名之輩》大火:人這輩子,最怕和平凡為敵??洞見
人生百態(tài),須拼盡全力,才能過完平凡的一生
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。