作者:周源/華爾街見聞
7月28日,智譜AI發(fā)布旗艦?zāi)P虶LM-4.5并開源。GLM-4.5是一款專為智能體應(yīng)用研發(fā)的基礎(chǔ)模型,在性能、成本控制與多能力融合等方面均有出色表現(xiàn)。
在這些技術(shù)突破的背后,哪些因素起了支撐作用?
智譜AI核心團(tuán)隊(duì)主要來(lái)自清華大學(xué)KEG(知識(shí)工程)實(shí)驗(yàn)室:董事長(zhǎng)劉德兵、CEO張鵬和總裁王紹蘭均為KEG實(shí)驗(yàn)室核心成員,張鵬和王紹蘭同為清華創(chuàng)新領(lǐng)軍工程博士,首席科學(xué)家唐杰曾任清華大學(xué)計(jì)算機(jī)系教授。
從GLM-1到GLM-4.5經(jīng)歷四年多迭代。
早期(2021年)GLM模型(10B)就已探索了Transformer架構(gòu)的優(yōu)化,2022年推出參數(shù)規(guī)模達(dá)130B的GLM-130B,2023年推出的GLM-3嘗試了混合專家(MoE)架構(gòu)的輕量化設(shè)計(jì),為后續(xù)參數(shù)效率提升奠定基礎(chǔ),其小步快跑的迭代模式,讓團(tuán)隊(duì)對(duì)模型架構(gòu)的理解不斷深化。
GLM系列的LLM(大語(yǔ)言模型:LargeLanguageModel)基于Transformer架構(gòu)構(gòu)建。
GLM-130B采用DeepNorm(一種用于穩(wěn)定深層Transformer模型訓(xùn)練的歸一化方法)作為層歸一化(LayerNormalization)策略,并在前饋網(wǎng)絡(luò)(FFN)中使用旋轉(zhuǎn)位置嵌入(RoPE),以及配備GeLU激活函數(shù)的門控線性單元(GLU:GatedLinearUnit,常用于增強(qiáng)模型對(duì)特征的選擇性和處理)。
這些都表明早期GLM模型對(duì)Transformer架構(gòu)做了探索與優(yōu)化。
之后的GLM-3,采用獨(dú)創(chuàng)的多階段增強(qiáng)預(yù)訓(xùn)練方法,基于當(dāng)時(shí)最新的高效動(dòng)態(tài)推理和顯存優(yōu)化技術(shù),其推理框架在相同硬件和模型條件下,相較于當(dāng)時(shí)最佳的開源實(shí)現(xiàn),推理速度提升2-3倍,推理成本降低1倍。
這說(shuō)明GLM-3在模型架構(gòu)優(yōu)化等方面有顯著進(jìn)展,為后續(xù)參數(shù)效率提升奠定了基礎(chǔ),也有助于對(duì)不同任務(wù)的特征分布,形成長(zhǎng)期數(shù)據(jù)積累。
業(yè)界有些團(tuán)隊(duì)或成立時(shí)間較短,或中途轉(zhuǎn)向大模型研發(fā),缺乏這種持續(xù)的技術(shù)沉淀,難以在架構(gòu)細(xì)節(jié)上實(shí)現(xiàn)精細(xì)化優(yōu)化。
多數(shù)團(tuán)隊(duì)在大模型研發(fā)中更傾向于堆參數(shù)量的密集型架構(gòu),認(rèn)為參數(shù)量與性能呈正相關(guān)。2023年到2024年底,“百模大戰(zhàn)”期間,眾多企業(yè)將參數(shù)量、評(píng)測(cè)分?jǐn)?shù)作為核心指標(biāo),試圖通過(guò)擴(kuò)大模型規(guī)模來(lái)提升模型能力。
大模型中激活參數(shù)占比與模型架構(gòu)、稀疏激活技術(shù)等相關(guān),若企業(yè)過(guò)于追求參數(shù)量而未優(yōu)化架構(gòu)和技術(shù),可能導(dǎo)致激活參數(shù)占比低。
智譜AI做法與眾不同,從GLM-2開始,堅(jiān)持“高效參數(shù)”路線:不去盲目擴(kuò)大總參數(shù)量,而是通過(guò)優(yōu)化專家模塊的協(xié)同機(jī)制提升效率。
比如GLM-4.5的3550億總參數(shù)中,激活參數(shù)320億,占比約9%,每個(gè)專家模塊僅負(fù)責(zé)特定領(lǐng)域任務(wù)(如代碼模塊專注Python與JavaScript,推理模塊專注數(shù)學(xué)與邏輯),模塊間通過(guò)輕量化路由層銜接,避免密集型架構(gòu)中參數(shù)冗余的問題。
同時(shí)發(fā)布的還有GLM-4.5-Air,總參數(shù)1060億,激活參數(shù)120億,激活占比約11%。
這種路徑需要更細(xì)致的拆解任務(wù)類型,而部分團(tuán)隊(duì)因擔(dān)心架構(gòu)復(fù)雜度上升導(dǎo)致研發(fā)周期延長(zhǎng),仍選擇更穩(wěn)妥的密集型架構(gòu)。
至于參數(shù)激活占比,這個(gè)關(guān)系到調(diào)用推理的商業(yè)成本:相同參數(shù)量下,激活參數(shù)占比低意味著更多參數(shù)未有效參與推理計(jì)算,造成算力浪費(fèi),導(dǎo)致推理成本上升。
GLM-4.5之所以能做到“參數(shù)效率翻倍,API價(jià)格僅為Claude(美國(guó)人工智能初創(chuàng)公司Anthropic發(fā)布的大模型家族)的1/10(輸入0.8元/百萬(wàn)tokens、輸出2元/百萬(wàn)tokens),速度超100tokens/秒”,就因?yàn)榧せ顓?shù)占比較高。
GLM-4.5的訓(xùn)練數(shù)據(jù)采用“通用+垂直”的雙層結(jié)構(gòu):底層是15萬(wàn)億token的通用文本(與多數(shù)團(tuán)隊(duì)類似),上層是8萬(wàn)億token的垂直領(lǐng)域數(shù)據(jù),且按“推理-代碼-智能體”三類任務(wù)單獨(dú)標(biāo)注。
插一句:在深度學(xué)習(xí)尤其是自然語(yǔ)言處理(NLP)領(lǐng)域,token是指文本中的最小有意義的邏輯單元,也是模型用來(lái)表示自然語(yǔ)言文本的基本單位,還是模型計(jì)費(fèi)單元,類似于計(jì)算存儲(chǔ)和處理二進(jìn)制數(shù)據(jù)的基本單位——字節(jié)(byte)。
GLM-4.5的標(biāo)注方法并非簡(jiǎn)單分類,而是為每個(gè)任務(wù)設(shè)計(jì)專屬的訓(xùn)練目標(biāo),比如推理任務(wù)側(cè)重邏輯鏈完整性,代碼任務(wù)側(cè)重語(yǔ)法正確性。
智譜AI是國(guó)內(nèi)首批推進(jìn)大模型開源的企業(yè)之一,2023年GLM-2開源后積累規(guī)模龐大的開發(fā)者社區(qū)。這些開發(fā)者不僅反饋bug,更貢獻(xiàn)了大量輕量化部署方案。GLM-4.5的“思考/非思考模式”切換功能,底層調(diào)度算法很可能來(lái)自社區(qū)開發(fā)者的優(yōu)化建議。
智譜AI的官方通稿稱,“首次實(shí)現(xiàn)推理、代碼、Agent等多能力原生融合”,那么多能力融合的技術(shù)壁壘是什么?為什么此前業(yè)界沒有同類模型能力?
多能力融合需解決模塊協(xié)同難題:推理模塊的邏輯思維與代碼模塊的語(yǔ)法規(guī)則分屬不同認(rèn)知范式,強(qiáng)行融合易導(dǎo)致能力稀釋。
此前業(yè)界有些團(tuán)隊(duì)嘗試通過(guò)“拼接式”融合(在推理模型后嫁接代碼模塊)實(shí)現(xiàn),但模塊間缺乏共享參數(shù),導(dǎo)致響應(yīng)速度大幅下降。
GLM-4.5采用了統(tǒng)一底層架構(gòu),需要從模型設(shè)計(jì)初期就規(guī)劃參數(shù)共享機(jī)制,這對(duì)架構(gòu)設(shè)計(jì)能力要求極高,多數(shù)團(tuán)隊(duì)暫未突破這一技術(shù)瓶頸。
若以此說(shuō)業(yè)界有些團(tuán)隊(duì)技術(shù)能力較差,也有失偏頗;多數(shù)情況下,很多技術(shù)團(tuán)隊(duì)受商業(yè)化的壓力較大,因此更傾向于快速推出閉源商業(yè)模型意圖變現(xiàn),導(dǎo)致研發(fā)周期被壓縮,測(cè)試時(shí)間有限,在推動(dòng)多能力融合時(shí)出現(xiàn)穩(wěn)定性問題,可感知的這類問題,比如連續(xù)調(diào)用工具時(shí)概率性崩潰。
自2019年成立以來(lái),智譜AI經(jīng)歷了至少11輪融資,故而資金壓力應(yīng)當(dāng)不是很大,看上去在優(yōu)化架構(gòu)時(shí)顯得很有耐心,能用較長(zhǎng)時(shí)間做多能力協(xié)同的專項(xiàng)優(yōu)化,這種耐心在當(dāng)前追求短期回報(bào)的行業(yè)環(huán)境中較為稀缺。
智譜GLM-4.5的突破,本質(zhì)是技術(shù)積累、路徑選擇與生態(tài)協(xié)同的綜合結(jié)果。
這個(gè)多能力融合大模型的推出,表明大模型競(jìng)爭(zhēng)已從單點(diǎn)參數(shù)規(guī)模轉(zhuǎn)向系統(tǒng)效率與生態(tài)活力,這或許為行業(yè)提供了新的發(fā)展參照和性能評(píng)價(jià)標(biāo)準(zhǔn)。
青鳥飛揚(yáng) 防重 Token 令牌
針對(duì)客戶端連續(xù)點(diǎn)擊或者調(diào)用方的超時(shí)重試等情況,例如提交訂單,此種操作就可以用Token 的機(jī)制實(shí)現(xiàn)防止重復(fù)提交。簡(jiǎn)單的說(shuō)就是調(diào)用方在調(diào)用接口的時(shí)候先向后端請(qǐng)求一個(gè)全局ID(Token),請(qǐng)求的時(shí)候攜帶這個(gè)全局ID 一起請(qǐng)求(Token 最好將其放到Headers 中),后端需要對(duì)這個(gè)Token 作為Key,用戶信息作為Valu 防止表單重復(fù)提交是Web應(yīng)用開發(fā)中的一項(xiàng)關(guān)鍵任務(wù),它涉及到前端和后端的協(xié)同作用,旨在保障數(shù)據(jù)的唯一性與安全性。在對(duì)比了前端限制與后端限制的各自特點(diǎn)后,我們可以依據(jù)具體的應(yīng)用情境來(lái)挑選恰當(dāng)?shù)姆桨浮4送?,結(jié)合令牌機(jī)制、用戶提示、異常處理以及日志記錄等措施,我們可以構(gòu)建出一個(gè)全面而有效的防重交機(jī)制|-。整個(gè)過(guò)程中說(shuō)完了。探討身份驗(yàn)證中的關(guān)鍵機(jī)制:session與token的差異