旁映陽
GTA工作由中國科學院自動化研究所、倫敦大學學院及香港科技大學(廣州)聯(lián)合研發(fā),提出了一種高效的大模型框架,顯著提升模型性能與計算效率。一作為自動化所的孫羅洋博士生,研究方向為:大模型高效計算與優(yōu)化,通訊作者為香港科技大學(廣州)的鄧程博士、自動化所張海峰教授及倫敦大學學院汪軍教授。該成果為大模型的優(yōu)化部署提供了創(chuàng)新解決方案。
Grouped-headlatentAttention(GTA)震撼登場!這項創(chuàng)新機制通過共享注意力矩陣和壓縮潛在值表示,將計算量削減62.5%,KV緩存縮減70%,prefill和decode速度提升2倍。無論是處理海量數據構成的長序列任務,還是在計算資源極為有限的邊緣設備上運行,GTA都展現(xiàn)出無與倫比的效率和卓越的性能,無疑將成為大型語言模型優(yōu)化領域的新標桿。
大型語言模型面臨的效率困局
近年來,Transformer架構的橫空出世極大地推動了自然語言處理領域的飛速發(fā)展,使得大型語言模型在對話生成、文本摘要、機器翻譯以及復雜推理等多個前沿領域屢創(chuàng)佳績,展現(xiàn)出令人驚嘆的能力。然而,隨著模型參數量從數十億激增至上千億,傳統(tǒng)多頭注意力機制(Multi-HeadAttention,MHA)所固有的弊端也日益凸顯,成為制約其廣泛應用和進一步發(fā)展的瓶頸。
首當其沖的是計算冗余問題。在MHA(多頭注意力)架構中,每個注意力頭都像一個獨立的“工作單元”,各自獨立地計算查詢(Query)、鍵(Key)和值(Value)向量,這導致了大量的重復計算。特別是在處理長序列任務時,浮點運算次數(FLOPs)會呈平方級增長,嚴重拖慢了模型的處理效率,使得原本復雜的任務變得更加耗時。
其次是內存瓶頸。每個注意力頭都需要完整存儲其對應的鍵值對(KV)緩存,這使得內存需求隨序列長度和注意力頭數量的增加而快速膨脹。例如,在處理長序列時,KV緩存的規(guī)??梢暂p松突破數GB,如此龐大的內存占用極大地限制了大型模型在智能手機、物聯(lián)網設備等邊緣設備上的部署能力,使其難以真正走進千家萬戶。
最后是推理延遲問題。高昂的計算和內存需求直接導致了推理速度的顯著下降,使得像語音助手實時響應、在線翻譯無縫切換等對延遲敏感的實時應用難以提供流暢的用戶體驗。盡管業(yè)界的研究者們曾嘗試通過Multi-QueryAttention(MQA)和Grouped-QueryAttention(GQA)等方法來優(yōu)化效率,但這些方案往往需要在性能和資源消耗之間做出艱難的權衡,難以找到理想的平衡點。面對這一系列嚴峻的挑戰(zhàn),研究團隊經過不懈努力,最終推出了Grouped-headlatentAttention(GTA),以其顛覆性的設計,重新定義了注意力機制的效率極限,為大型語言模型的未來發(fā)展開辟了全新的道路。
論文標題:GTA:Grouped-headlatenTAttention論文鏈接:https://arxiv.org/abs/2506.17286項目鏈接:https://github.com/plm-team/GTA
GTA的核心創(chuàng)新機制
GTA的卓越成功源于其兩大核心技術突破,它們精妙地協(xié)同作用,使得大型語言模型即使在嚴苛的資源受限場景下,也能展現(xiàn)出前所未有的高效運行能力。
分組共享注意力矩陣機制
在傳統(tǒng)的MHA架構中,每個注意力頭都被視為一個獨立的“獨行俠”,各自計算并維護自己的注意力分數。這種分散式的計算模式雖然賦予了模型捕捉多種復雜依賴關系的能力,但同時也帶來了顯著的計算冗余。以一個包含16個注意力頭的MHA為例,當每個頭獨立處理輸入時,會生成16組獨立的注意力矩陣,這使得總體的計算開銷隨注意力頭數量的增加而呈線性增長,效率低下。
與此形成鮮明對比的是,GTA采用了全新的“團隊協(xié)作”策略。該機制將注意力頭巧妙地劃分為若干個邏輯組,例如,每4個注意力頭可以組成一個小組,而這個小組內部的成員將共享一張統(tǒng)一的注意力矩陣。這種創(chuàng)新的共享設計意味著,我們僅需對注意力分數進行一次計算,然后便可將其高效地分配給組內所有注意力頭使用,從而大幅度減少了浮點運算次數(FLOPs)。
實驗數據有力地證明,這一精巧的設計能夠將總計算量削減,為處理超長序列任務帶來了顯著的推理加速效果。這恰如一位經驗豐富的主廚,統(tǒng)一備齊所有食材,再分發(fā)給不同的助手進行精細加工,既極大地節(jié)省了寶貴的時間,又確保了最終產出的高質量和一致性。
壓縮潛在值表示技術
MHA架構的另一個關鍵痛點在于其KV緩存對內存的巨大占用。由于每個注意力頭的值(Value)向量都需要被完整地存儲下來,導致模型的內存需求會隨著輸入序列長度和注意力頭數量的增加而快速膨脹,成為部署大型模型的嚴重障礙。GTA通過其獨創(chuàng)的“壓縮+解碼”巧妙設計,徹底解決了這一難題。
這項技術首先將所有注意力頭的值向量高效地壓縮為一個低維度的潛在表示(LatentRepresentation),從而極大地減少了所需的存儲空間。隨后,通過一個輕量級且高效的WaLU(WeightedadditiveLinearUnit)非線性解碼器,模型能夠根據每一組注意力頭的具體需求,從這個緊湊的潛在表示中動態(tài)地、定制化地生成所需的完整值向量。
這種創(chuàng)新的方法不僅顯著節(jié)省了寶貴的內存資源,同時還巧妙地保留了每個注意力頭所特有的獨特表達能力,避免了信息損失。實驗結果令人鼓舞,GTA的KV緩存規(guī)模成功縮減了70%,這一突破性進展為大型語言模型在性能受限的邊緣設備上的廣泛部署鋪平了道路,使其能夠更普惠地服務于各類應用場景。
實驗驗證:GTA的卓越性能與效率
研究團隊通過一系列嚴謹而全面的實驗,對Grouped-headLatentAttention(GTA)在不同模型規(guī)模、輸入序列長度以及多樣化硬件平臺上的性能和效率進行了深入評估。實驗結果令人信服地表明,GTA在大幅度提升計算效率和內存利用率的同時,不僅成功保持了,甚至在某些關鍵指標上超越了現(xiàn)有主流注意力機制的模型性能,展現(xiàn)出其強大的實用價值和廣闊的應用前景。
模型有效性驗證
為了確保實驗結果的公平性和準確性,研究團隊在實驗設計中采取了嚴格的控制變量法:所有非注意力相關的模型參數(例如隱藏層維度、多層感知機MLP的大小等)都被固定不變,從而確保模型參數量的任何變化都僅僅來源于注意力機制自身的創(chuàng)新設計。
160M參數模型表現(xiàn)
在針對160M參數規(guī)模模型的測試中,無論輸入序列長度是2048還是4096個token,GTA都持續(xù)展現(xiàn)出卓越的性能優(yōu)勢。具體而言,采用GTA2配置的模型在2048token序列長度下,成功實現(xiàn)了比傳統(tǒng)MHA、GQA和MLA更低的評估損失,并獲得了更優(yōu)異的Wikitext困惑度(PPL)表現(xiàn)。此外,GTA1配置的模型在多項下游任務中取得了更高的平均準確率,彰顯了其在實際應用中的有效性。尤為值得強調的是,GTA在內存效率方面表現(xiàn)出類拔萃,其每層所需的KV緩存大小僅為MHA的12.5%(具體數據為192維度對比MHA的1536維度),這一顯著的縮減充分突顯了GTA在內存優(yōu)化方面的強大能力。實驗結果詳細呈現(xiàn)在下方的表格中:
500M參數模型表現(xiàn)
將模型規(guī)模擴展至500M參數時,GTA依然保持了其在性能上的領先地位。在2048token序列長度的測試中,GTA不僅實現(xiàn)了更低的評估損失,還在下游任務中取得了更高的平均準確率,同時其Wikitext困惑度與MHA和GQA等主流模型保持在同等甚至更優(yōu)的水平。GTA持續(xù)展現(xiàn)出其獨有的內存優(yōu)勢,其KV緩存大小僅為MHA的12.5%(具體為320維度對比MHA的2560維度),即使在采用更小緩存(例如192維度,僅為MHA的7.5%)的情況下,GTA也能獲得可比擬的性能表現(xiàn),充分印證了其在內存效率與性能之間取得的完美平衡。在處理4096token長序列的任務中,GTA不僅能夠與MHA的評估損失持平,更在Wikitext困惑度和下游任務的平均準確率上提供了更優(yōu)異的表現(xiàn)。這些詳盡的實驗數據均已在下方的表格中列出:
1B參數語言模型擴展性
為了進一步驗證GTA在大規(guī)模模型上的卓越擴展能力和穩(wěn)定性,研究團隊特意訓練了1B參數級別的GTA-1B和GQA-1B模型。下圖清晰地展示了GTA-1B和GQA-1B在長達50,000訓練步中的損失曲線和梯度范數曲線,從中可以觀察到兩者均展現(xiàn)出令人滿意的穩(wěn)定收斂趨勢。
盡管GTA-1B在設計上采用了更小的緩存尺寸,但其損失軌跡卻與GQA-1B高度匹配,這一事實有力地證明了GTA內存高效架構的有效性,即在減少資源消耗的同時不犧牲模型學習能力。在多項嚴苛的基準測試中,GTA-1B(包括經過SFT微調的版本)均展現(xiàn)出與GQA-1B相當甚至更為優(yōu)異的性能,尤其在平均準確率上取得了顯著提升。這充分表明,GTA即使在資源受限的環(huán)境下,也能通過微調有效泛化到各種復雜任務,保持強大的競爭力。這些詳盡的實驗結果均已在下方的表格中呈現(xiàn):
綜合來看,GTA-1B無論是在基礎模型狀態(tài)還是經過微調后,都成功實現(xiàn)了與GQA-1B相當的卓越性能。與此同時,其KV緩存尺寸僅為GQA-1B的30%,而自注意力計算成本更是低至37.5%。這些令人矚目的數據有力地強調了內存和計算高效架構在大型語言模型擴展應用方面的巨大潛力,預示著未來AI發(fā)展將更加注重可持續(xù)性和資源效率。
效率評估
理論效率分析
通過LLM-Viewer進行經驗基準測試
為了將理論優(yōu)勢轉化為可量化的實際性能,研究團隊利用LLM-Viewer框架,在配備NVIDIAH10080GBGPU的高性能計算平臺上,對GTA-1B和GQA-1B進行了全面的經驗基準測試。下圖清晰地展示了在不同配置下,兩種模型的預填充和解碼時間對比。從中可以明顯看出,GTA-1B在計算密集型的預填充階段和I/O密集型的解碼階段都持續(xù)地優(yōu)于GQA-1B,充分展現(xiàn)了其卓越的延遲特性和更高的運行效率。
實際部署表現(xiàn)
為了更真實地評估GTA-1B在實際應用場景中的性能,研究團隊利用transformers庫,在多種異構硬件平臺(包括服務器級的NVIDIAH100、NVIDIAA800,消費級的RTX3060,以及邊緣設備如AppleM2和BCM2712)上進行了深入的推理實驗。
上圖直觀地展示了在不同配置下,GTA-1B與GQA-1B的預填充和解碼時間對比。GTA-1B(藍色實線)在所有測試平臺上都持續(xù)展現(xiàn)出優(yōu)于GQA-1B(橙色虛線)的預填充時間,尤其是在處理2ktoken等更長輸入序列時,性能差距更為顯著,體現(xiàn)了其在處理長文本時的強大優(yōu)勢。在解碼階段,GTA-1B同樣表現(xiàn)出卓越的性能,特別是在擴展生成長度時,這種優(yōu)勢在所有硬件類型上都保持一致,充分突顯了其設計的魯棒性。
上圖進一步展示了在啟用緩存卸載功能時的性能表現(xiàn)。在NVIDIAH100平臺上,GTA-1B在處理更長輸入序列時依然保持了其預填充優(yōu)勢,并且在解碼時間上實現(xiàn)了比GQA-1B更大的改進。這種在所有平臺上的持續(xù)趨勢,有力地突顯了GTA-1B在I/O密集型場景中的高效性,這類場景中緩存卸載需要GPU和CPU內存之間頻繁的數據傳輸,而GTA-1B在這種復雜環(huán)境下依然表現(xiàn)出色。
綜上所述,GTA-1B在各種硬件平臺下,無論是在預填充還是解碼時間上,均全面超越了GQA-1B,并在處理更長輸入序列時展現(xiàn)出顯著的性能優(yōu)勢。它不僅在標準推理設置中表現(xiàn)出色,在啟用緩存卸載的I/O密集型條件下也同樣杰出,充分展現(xiàn)了其在不同硬件能力和批處理大小下的強大多功能性。這種卓越的適應性使得GTA-1B成為服務器級和消費級部署的理想解決方案,通過顯著降低計算復雜度和內存需求,極大地提升了大型語言模型中注意力機制的整體效率。
技術局限與未來方向
盡管Grouped-headlatentAttention(GTA)在效率和性能方面取得了令人矚目的突破,但作為一項新興技術,仍有一些關鍵的技術挑戰(zhàn)需要我們持續(xù)關注和深入探索。首先,非線性解碼器在進行模型壓縮的過程中,可能會引入微小的近似誤差,這需要未來的研究在架構設計和訓練策略上進一步優(yōu)化,確保模型輸出的準確性。其次,當前GTA的研究和驗證主要集中在自然語言處理任務上,其在計算機視覺或多模態(tài)任務中的適用性和性能表現(xiàn),還需要進行更廣泛和深入的探索與驗證。
盡管存在這些局限,研究團隊已經為GTA的未來發(fā)展制定了清晰且富有前景的后續(xù)研究方向。他們計劃持續(xù)改進非線性解碼器的架構設計,以期在保證高效解碼的同時,進一步減少信息損失,提升模型性能上限。此外,研究團隊還雄心勃勃地計劃將GTA應用于更大規(guī)模的模型,以驗證其在超大規(guī)模場景下的可擴展性和效率優(yōu)勢,推動大型語言模型向更廣闊的應用領域邁進。
《[綜]失去魔法以后成了刀子精》《你好,江時遇》《師尊失憶后》
1.4 ? 《你好,江時遇》童妍對江時遇展開了一段執(zhí)著而熱情的追求,故事溫馨甜蜜,展示了兩位主角從相識到相愛的純粹情感之旅-_。在2004年的緣南市,一場火災在寫字樓中蔓延,一名年輕的消防員在救火過程中英勇犧牲。他救下了五個孩子,其中就包括童妍_。時光荏苒,2011年,為了報恩,童妍考入德育二中,并與一個等我繼續(xù)說。
來源:紅網
作者:荀麥
編輯:福蕾
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網立場。轉載請附原文出處鏈接和本聲明。