隨著大模型參數(shù)規(guī)模不斷膨脹,其高昂的計算資源需求和低效的運行速度成為制約其廣泛應用的瓶頸。本文將為您深入剖析大模型輕量化技術,供大家參考。
當前大模型如GPT-4已突破萬億級別參數(shù)量、如DeepSeek-R1已突破千億級別參數(shù)量,這樣的參數(shù)規(guī)模使得大模型的運行需要占用巨大的計算資源,同時訓練和推理的效率低下。
以GPT-4的1.8萬億參數(shù)為例,模型參數(shù)FP32全精度對應的理論顯存占用是7.2TB,需至少90張NVIDIAH10080GBGPU,而一塊H100的GPU單價在$20,000-$40,000。若不考慮大模型輕量化及訓練推理加速技術,單次生成1ktokens的推理延遲約為10秒,單次推理成本約為$0.5。
大模型的資源消耗量級是遠超移動設備與邊緣計算硬件的承載極限的,比如常見的智能手機通常僅有12-24GB內存。大模型對資源的需求和端側設備只能提供有限算力的矛盾,催生了一批輕量化的技術手段。這里的輕量化是指,對大模型施加參數(shù)調整、訓練優(yōu)化等手段,在精度可接受的前提下,實現(xiàn)大模型的存儲需求降低和運行效率提升。這是大模型走進手機、汽車、機器人等端側設備的必經(jīng)之路。
本文將通俗介紹大模型的四種輕量化技術,分別是蒸餾、剪枝、低秩分解和量化。
一、蒸餾
蒸餾的本質是讓小型的學生模型(StudentModel)模仿大型的教師模型(TeacherModel)的決策邏輯,從而使得學生模型在保持較小規(guī)模的前提下逼近教師模型的推理能力。
傳統(tǒng)的蒸餾機制在于引入軟標簽(SoftLabels)作為學生模型的訓練目標。這里簡要解釋下軟標簽,如果模型直接判別輸入圖像是“貓/狗”,這類非0即1的輸出可以看作是硬標簽(HardLabels),比如模型輸出的的硬標簽是[0,1],代表模型判別輸入圖像是貓。軟標簽是模型輸出的概率分布,當讓模型判別一只老虎時,模型可能輸出在貓、狗兩個類別的概率值,此時軟標簽是[0.3,0.7],這種軟標簽隱含了類別間的相似性知識,比如老虎更接近貓的相貌,同時接近狗的體格。
在訓練學生模型時,構造的訓練目標函數(shù)是學生模型預測概率分布與教師模型預測概率分布的KL散度。在訓練過程中,通過不斷降低KL散度,讓學生模型預測的概率分布逼近于教師模型預測的概率分布,從而確保學生模型逐步學習到教師模型的知識。
實際在大模型蒸餾過程中,學生模型還可以通過數(shù)據(jù)蒸餾的方式學習教師模型的推理能力。比如在論文《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》中,首先使用DeepSeek-R1作為教師模型,生成包含推理過程(CoT)和答案的高質量訓練數(shù)據(jù)(共80萬條樣本),然后通過有監(jiān)督微調的手段對Qwen2.5、Llama3等基礎模型進行蒸餾。如下圖所示,蒸餾之后的Qwen2.5、Llama3在數(shù)學推理和編碼任務取得了很好的表現(xiàn),說明了小模型性能是可以通過蒸餾手段提升的。
二、剪枝
剪枝的靈感源于神經(jīng)科學。人類在嬰兒期會產(chǎn)生大量的突觸連接,但是在成長過程中低頻的突觸連接會逐漸退化,而高頻的突觸連接會保留下來。在大模型的深度神經(jīng)網(wǎng)絡架構中,我們可以刪除模型中某些結構或者冗余參數(shù)來達到給大模型“瘦身的效果”,相應的有結構化剪枝、非結構化剪枝兩種技術手段:
非結構化剪枝:隨機刪除單個權重,比如小于某個閾值的權重。由于不改變模型的整體結構,剪枝之后會造成參數(shù)矩陣的稀疏性(一部分權重為0),這種稀疏性會導致普通GPU/CPU難以高效計算,需要用到專門的硬件比如NVIDIAA100TensorCoreGPU來保證性能發(fā)揮。非結構化剪枝更適用于壓縮率要求較高,但硬件可控的場景,比如在數(shù)據(jù)中心內部部署大模型,并且搭配專用加速卡。
結構化剪枝:刪除“結構化單元”,比如整個卷積核、注意力頭、通道、甚至整個網(wǎng)絡層。結構化剪枝后的模型結構規(guī)則與原始模型架構是兼容的,無需專用的硬件即可在普通GPU/CPU上運行。但是結構化剪枝的問題是可能導致大模型的部分功能失效,比如刪除一個注意力機制模塊可能丟失一部分的語義理解能力。因此,需要通過評估不同結構化單元的重要性來判斷哪些結構可剪。結構化剪枝更適用于手機、汽車等端側設備,支持實時目標檢測、語音交互等任務。
三、低秩分解
大模型的參數(shù)矩陣往往是高維度的稠密矩陣,而低秩分解的思路就是通過用一些更低維度的矩陣來表達稠密矩陣,從而在損失少量精度的前提下,大幅度降低參數(shù)總量。
舉例來說,假設大模型的原始參數(shù)矩陣W的維度是m*n,通過線性代數(shù)的分解方法,將W分解為兩個低秩矩陣的乘積,即W=U*V。其中U的維度是m*r,V的維度是r*n,注意r是遠小于m也遠小于n的,此時矩陣的參數(shù)總量就從m*n下降到(m*r+r*n)。
四、量化
我們都知道大模型內部有很多參數(shù),而這些參數(shù)的數(shù)值格式會影響到存儲和計算資源的效率。量化技術就是將傳統(tǒng)的32位浮點數(shù)(FP32)參數(shù),替換為更低位數(shù)的數(shù)值格式,比如8位整數(shù)、4位整數(shù)、二進制等,從而減少內存占用、降低計算量,并且適配硬件的低精度指令集。
舉例來說,一個FP32的參數(shù)需要4字節(jié)存儲,而INT8僅需1字節(jié),理論上可實現(xiàn)4倍壓縮;若進一步量化到INT4,則可實現(xiàn)8倍壓縮。同時,低精度計算的硬件效率遠高于FP32精度的計算,因此量化不僅能給大模型“瘦身”,還能直接提升推理速度。以DeepSeekR3為例,模型采用FP8量化方案,并且通過混合訓練方案來確保模型的精度。
從云端到邊緣,從萬億參數(shù)到百萬參數(shù),大模型的輕量化技術正在加速AI的落地應用。當大模型能以0.5秒速度在千元手機完成醫(yī)學影像分析,以22ms延遲在汽車芯片規(guī)避碰撞風險,以3W功耗驅動礦山機器人自主巡檢——這些場景的實現(xiàn),意味著AI技術的應用門檻持續(xù)降低,其實際價值將在更廣泛的領域中逐步顯現(xiàn)。
白月光歸國日她藏孕肚消失,秦少發(fā)瘋尋妻,再見時她攜子笑語盈盈
穿越古言文,生孩子最多女主+霸道二貨總裁男主,甜到心里去了!
古言寵妻文,強推《第一狂妃》《貴女長嬴》爽文,冷傲男VS霸王花