本文第一作者莊湛,香港城市大學(xué)和南方科技大學(xué)聯(lián)合培養(yǎng)博士生,研究方向是遷移學(xué)習(xí)、擴(kuò)散模型、大模型微調(diào)等。本文通訊作者魏穎,浙江大學(xué)「百人計(jì)劃」研究員,博士生導(dǎo)師,研究方向包括持續(xù)學(xué)習(xí)、遷移學(xué)習(xí)、組合泛化以及在科學(xué)領(lǐng)域中的應(yīng)用等。通訊作者張宇,南方科技大學(xué)副教授,研究方向包括深度學(xué)習(xí)、多任務(wù)學(xué)習(xí)、遷移學(xué)習(xí)、元學(xué)習(xí)以及在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理方面的應(yīng)用。
還在為L(zhǎng)oRA訓(xùn)練不穩(wěn)定、模型融合效果差、剪枝后性能大降而煩惱嗎?來(lái)自香港城市大學(xué)、南方科技大學(xué)、浙江大學(xué)等機(jī)構(gòu)的研究者們提出了一種簡(jiǎn)單的漸進(jìn)式訓(xùn)練策略,CoTo,通過(guò)在訓(xùn)練早期隨機(jī)失活一部分適配器,并逐漸提高其激活概率,有效緩解了層級(jí)不均衡問(wèn)題,并顯著增強(qiáng)了模型在多任務(wù)融合和剪枝等操作上的魯棒性和有效性。該工作已被機(jī)器學(xué)習(xí)頂會(huì)ICML2025接收。
論文標(biāo)題:ComeTogether,ButNotRightNow:AProgressiveStrategytoBoostLow-RankAdaptation論文鏈接:https://openreview.net/forum?id=Zha2m39ZoM代碼倉(cāng)庫(kù):https://github.com/zwebzone/coto官網(wǎng)海報(bào):https://icml.cc/virtual/2025/poster/44836
常規(guī)LoRA訓(xùn)練的隱藏缺陷
參數(shù)高效微調(diào)技術(shù)已成為預(yù)訓(xùn)練大模型在下游任務(wù)應(yīng)用的關(guān)鍵技術(shù)。然而,盡管LoRA如此成功,它依然面臨著一些棘手的問(wèn)題:
1.「惰性訓(xùn)練」(LazyTraining):LoRA的優(yōu)化過(guò)程常常會(huì)陷入初始化點(diǎn)附近的次優(yōu)解,限制了模型的泛化能力。
2.層級(jí)不平衡:在訓(xùn)練中,梯度更新往往集中位于模型的頂層適配器,導(dǎo)致底層適配器訓(xùn)練不足,整體性能受限。
3.下游操作困難:上述問(wèn)題使得多個(gè)LoRA模型的融合和剪枝等下游操作變得非常困難,效果常常不盡人意。
CoTo策略:何不讓LoRA「漸入佳境」?
為了解決這些挑戰(zhàn),研究者們提出了CoTo,其核心思想非常簡(jiǎn)潔直觀:在訓(xùn)練初期,不必讓每一層的訓(xùn)練「一擁而上」,而是讓LoRA適配器「循序漸進(jìn)」地參與訓(xùn)練。具體來(lái)說(shuō),CoTo采用了一種漸進(jìn)式的激活策略:
訓(xùn)練初期:以一個(gè)較高的概率隨機(jī)「失活」一部分LoRA適配器。這迫使模型在更新時(shí)不能過(guò)分依賴(lài)某幾層,從而讓梯度更均勻地流向所有層級(jí),鼓勵(lì)模型探索更廣闊的參數(shù)空間。訓(xùn)練中后期:線(xiàn)性地提高適配器的激活概率,直到所有適配器都完全參與訓(xùn)練,回歸到標(biāo)準(zhǔn)的微調(diào)模式。
這種「先抑后揚(yáng)」的策略帶來(lái)了諸多好處:它不僅促進(jìn)了層級(jí)間的均衡優(yōu)化,還顯著提升了不同隨機(jī)種子訓(xùn)練出的模型之間的線(xiàn)性模式連通性(LinearModeConnectivity,LMC)和Dropout穩(wěn)定性,為模型融合與剪枝打下了堅(jiān)實(shí)的基礎(chǔ)。
圖1:CoTo漸進(jìn)式激活示意圖。訓(xùn)練初期(t<3T/4),適配器被隨機(jī)失活(灰色部分),其激活概率p(t)隨訓(xùn)練線(xiàn)性增長(zhǎng);訓(xùn)練后期,所有適配器保持激活。
實(shí)驗(yàn)結(jié)果
CoTo最令人興奮的貢獻(xiàn)在于它極大地提升了LoRA模型的融合和剪枝能力,且CoTo本身也能在單任務(wù)的泛化性能和訓(xùn)練效率上帶來(lái)提升。
更有效的模型融合
線(xiàn)性插值準(zhǔn)確率:在常識(shí)推理與圖像分類(lèi)任務(wù)中,對(duì)兩個(gè)獨(dú)立訓(xùn)練的LoRA模型進(jìn)行線(xiàn)性插值時(shí),標(biāo)準(zhǔn)LoRA的性能在融合點(diǎn)(λ=0.5)會(huì)急劇下降。相比之下,CoTo模型展現(xiàn)了優(yōu)越的線(xiàn)性模式連通性(LMC),在整個(gè)插值路徑上均能保持平滑且高效的性能過(guò)渡。多任務(wù)LoRA融合:在GLUE數(shù)據(jù)集上,無(wú)論是基于LLaMA-2(7B,13B)還是DeBERTa-v3模型,通過(guò)CoTo訓(xùn)練的LoRA模塊在進(jìn)行多任務(wù)合并時(shí),其準(zhǔn)確率均穩(wěn)定超越了使用常規(guī)訓(xùn)練方法融合的基線(xiàn)模型。
圖2:常識(shí)推理任務(wù)的線(xiàn)性插值準(zhǔn)確率。
圖3:圖像分類(lèi)任務(wù)的線(xiàn)性插值準(zhǔn)確率。
圖4:使用LLaMA-2-7B和LLaMA-2-13模型進(jìn)行多任務(wù)LoRA融合的準(zhǔn)確率。
更魯棒的模型剪枝
CoTo的訓(xùn)練方式天然地增強(qiáng)了模型的剪枝容錯(cuò)能力。如下圖所示,無(wú)論是在移除交替層、底層、中層還是高層適配器的結(jié)構(gòu)化剪枝中,還是在不同稀疏度的非結(jié)構(gòu)化剪枝中,CoTo-LoRA的性能都全面超越了標(biāo)準(zhǔn)LoRA。
圖5:結(jié)構(gòu)化剪枝對(duì)比(左)和非結(jié)構(gòu)化剪枝對(duì)比(右)。
性能與效率雙提升
性能更強(qiáng):在涵蓋視覺(jué)(11個(gè)圖像分類(lèi)任務(wù))、語(yǔ)言(8個(gè)常識(shí)推理任務(wù))和數(shù)學(xué)推理等多個(gè)領(lǐng)域的基準(zhǔn)測(cè)試中,CoTo都能穩(wěn)定地提升包括LoRA、DoRA、HiRA在內(nèi)的多種LoRA變體的性能。訓(xùn)練更快:由于在訓(xùn)練早期跳過(guò)了部分適配器的計(jì)算,CoTo還能降低訓(xùn)練開(kāi)銷(xiāo)。例如,在HiRA上應(yīng)用CoTo,可以實(shí)現(xiàn)超24%的訓(xùn)練加速!
圖6:在常識(shí)推理和數(shù)學(xué)推理上,基于不同LoRA變體和訓(xùn)練策略的性能提升。
消融實(shí)驗(yàn)
為了驗(yàn)證CoTo各個(gè)設(shè)計(jì)選擇的合理性并探究其性能提升的根源,研究團(tuán)隊(duì)在訓(xùn)練階段比例、激活概率曲線(xiàn)、嵌套Dropout策略、學(xué)習(xí)率和LoRArank等多個(gè)方面進(jìn)行了一系列嚴(yán)謹(jǐn)?shù)南趯?shí)驗(yàn)。這些實(shí)驗(yàn)不僅證明了CoTo設(shè)計(jì)的合理性,也為我們提供了關(guān)于如何有效正則化LoRA的深刻見(jiàn)解。
令人欣喜的是,CoTo的代碼實(shí)現(xiàn)十分簡(jiǎn)潔,用戶(hù)只需對(duì)現(xiàn)有LoRA訓(xùn)練流程做三步改動(dòng)即可利用這一策略,感興趣的讀者可以訪問(wèn)代碼倉(cāng)庫(kù),親自體驗(yàn)CoTo的效果!
總結(jié)
CoTo通過(guò)一個(gè)簡(jiǎn)單而巧妙的漸進(jìn)式訓(xùn)練策略,有效解決了LoRA訓(xùn)練中的層級(jí)不平衡和「懶惰」優(yōu)化問(wèn)題。它不僅提升了模型的單任務(wù)泛化能力,更重要的是,它極大地增強(qiáng)了LoRA適配器的可組合性與魯棒性,讓模型融合與剪枝等下游操作變得更加簡(jiǎn)單高效。CoTo無(wú)需修改模型架構(gòu),可以作為即插即用的模塊與各類(lèi)LoRA方法無(wú)縫集成。文章中還提供了漸進(jìn)優(yōu)化和合作博弈兩個(gè)角度深入分析了CoTo帶來(lái)的優(yōu)勢(shì)。我們相信,這項(xiàng)工作將為參數(shù)高效微調(diào)領(lǐng)域的研究與應(yīng)用帶來(lái)新的啟發(fā)。
銷(xiāo)售就是要搞定人
銷(xiāo)售絕招!如何精準(zhǔn)搞定客戶(hù),成交不再難
做銷(xiāo)售起早貪黑,受委屈還掙不到錢(qián),那是因?yàn)槟銢](méi)學(xué)會(huì)“搞定人”