本文第一作者莊湛,香港城市大學和南方科技大學聯(lián)合培養(yǎng)博士生,研究方向是遷移學習、擴散模型、大模型微調等。本文通訊作者魏穎,浙江大學「百人計劃」研究員,博士生導師,研究方向包括持續(xù)學習、遷移學習、組合泛化以及在科學領域中的應用等。通訊作者張宇,南方科技大學副教授,研究方向包括深度學習、多任務學習、遷移學習、元學習以及在計算機視覺和自然語言處理方面的應用。
還在為LoRA訓練不穩(wěn)定、模型融合效果差、剪枝后性能大降而煩惱嗎?來自香港城市大學、南方科技大學、浙江大學等機構的研究者們提出了一種簡單的漸進式訓練策略,CoTo,通過在訓練早期隨機失活一部分適配器,并逐漸提高其激活概率,有效緩解了層級不均衡問題,并顯著增強了模型在多任務融合和剪枝等操作上的魯棒性和有效性。該工作已被機器學習頂會ICML2025接收。
論文標題:ComeTogether,ButNotRightNow:AProgressiveStrategytoBoostLow-RankAdaptation論文鏈接:https://openreview.net/forum?id=Zha2m39ZoM代碼倉庫:https://github.com/zwebzone/coto官網(wǎng)海報:https://icml.cc/virtual/2025/poster/44836
常規(guī)LoRA訓練的隱藏缺陷
參數(shù)高效微調技術已成為預訓練大模型在下游任務應用的關鍵技術。然而,盡管LoRA如此成功,它依然面臨著一些棘手的問題:
1.「惰性訓練」(LazyTraining):LoRA的優(yōu)化過程常常會陷入初始化點附近的次優(yōu)解,限制了模型的泛化能力。
2.層級不平衡:在訓練中,梯度更新往往集中位于模型的頂層適配器,導致底層適配器訓練不足,整體性能受限。
3.下游操作困難:上述問題使得多個LoRA模型的融合和剪枝等下游操作變得非常困難,效果常常不盡人意。
CoTo策略:何不讓LoRA「漸入佳境」?
為了解決這些挑戰(zhàn),研究者們提出了CoTo,其核心思想非常簡潔直觀:在訓練初期,不必讓每一層的訓練「一擁而上」,而是讓LoRA適配器「循序漸進」地參與訓練。具體來說,CoTo采用了一種漸進式的激活策略:
訓練初期:以一個較高的概率隨機「失活」一部分LoRA適配器。這迫使模型在更新時不能過分依賴某幾層,從而讓梯度更均勻地流向所有層級,鼓勵模型探索更廣闊的參數(shù)空間。訓練中后期:線性地提高適配器的激活概率,直到所有適配器都完全參與訓練,回歸到標準的微調模式。
這種「先抑后揚」的策略帶來了諸多好處:它不僅促進了層級間的均衡優(yōu)化,還顯著提升了不同隨機種子訓練出的模型之間的線性模式連通性(LinearModeConnectivity,LMC)和Dropout穩(wěn)定性,為模型融合與剪枝打下了堅實的基礎。
圖1:CoTo漸進式激活示意圖。訓練初期(t<3T/4),適配器被隨機失活(灰色部分),其激活概率p(t)隨訓練線性增長;訓練后期,所有適配器保持激活。
實驗結果
CoTo最令人興奮的貢獻在于它極大地提升了LoRA模型的融合和剪枝能力,且CoTo本身也能在單任務的泛化性能和訓練效率上帶來提升。
更有效的模型融合
線性插值準確率:在常識推理與圖像分類任務中,對兩個獨立訓練的LoRA模型進行線性插值時,標準LoRA的性能在融合點(λ=0.5)會急劇下降。相比之下,CoTo模型展現(xiàn)了優(yōu)越的線性模式連通性(LMC),在整個插值路徑上均能保持平滑且高效的性能過渡。多任務LoRA融合:在GLUE數(shù)據(jù)集上,無論是基于LLaMA-2(7B,13B)還是DeBERTa-v3模型,通過CoTo訓練的LoRA模塊在進行多任務合并時,其準確率均穩(wěn)定超越了使用常規(guī)訓練方法融合的基線模型。
圖2:常識推理任務的線性插值準確率。
圖3:圖像分類任務的線性插值準確率。
圖4:使用LLaMA-2-7B和LLaMA-2-13模型進行多任務LoRA融合的準確率。
更魯棒的模型剪枝
CoTo的訓練方式天然地增強了模型的剪枝容錯能力。如下圖所示,無論是在移除交替層、底層、中層還是高層適配器的結構化剪枝中,還是在不同稀疏度的非結構化剪枝中,CoTo-LoRA的性能都全面超越了標準LoRA。
圖5:結構化剪枝對比(左)和非結構化剪枝對比(右)。
性能與效率雙提升
性能更強:在涵蓋視覺(11個圖像分類任務)、語言(8個常識推理任務)和數(shù)學推理等多個領域的基準測試中,CoTo都能穩(wěn)定地提升包括LoRA、DoRA、HiRA在內的多種LoRA變體的性能。訓練更快:由于在訓練早期跳過了部分適配器的計算,CoTo還能降低訓練開銷。例如,在HiRA上應用CoTo,可以實現(xiàn)超24%的訓練加速!
圖6:在常識推理和數(shù)學推理上,基于不同LoRA變體和訓練策略的性能提升。
消融實驗
為了驗證CoTo各個設計選擇的合理性并探究其性能提升的根源,研究團隊在訓練階段比例、激活概率曲線、嵌套Dropout策略、學習率和LoRArank等多個方面進行了一系列嚴謹?shù)南趯嶒?。這些實驗不僅證明了CoTo設計的合理性,也為我們提供了關于如何有效正則化LoRA的深刻見解。
令人欣喜的是,CoTo的代碼實現(xiàn)十分簡潔,用戶只需對現(xiàn)有LoRA訓練流程做三步改動即可利用這一策略,感興趣的讀者可以訪問代碼倉庫,親自體驗CoTo的效果!
總結
CoTo通過一個簡單而巧妙的漸進式訓練策略,有效解決了LoRA訓練中的層級不平衡和「懶惰」優(yōu)化問題。它不僅提升了模型的單任務泛化能力,更重要的是,它極大地增強了LoRA適配器的可組合性與魯棒性,讓模型融合與剪枝等下游操作變得更加簡單高效。CoTo無需修改模型架構,可以作為即插即用的模塊與各類LoRA方法無縫集成。文章中還提供了漸進優(yōu)化和合作博弈兩個角度深入分析了CoTo帶來的優(yōu)勢。我們相信,這項工作將為參數(shù)高效微調領域的研究與應用帶來新的啟發(fā)。
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。