本文第一作者是自南洋理工大學(xué)的博后朱貝爾和西湖大學(xué)的博士生王若禹,主要研究方向分別是RobustMachineLearning和DiffusionModel,該論文已被ICCV2025錄用。
近年來,擴散模型(DiffusionModels)憑借出色的生成質(zhì)量,迅速成為圖像、視頻、語音、3D內(nèi)容等生成任務(wù)中的主流技術(shù)。從文本生成圖像(如StableDiffusion),到高質(zhì)量人臉合成、音頻生成,再到三維形狀建模,擴散模型正在廣泛應(yīng)用于游戲、虛擬現(xiàn)實、數(shù)字內(nèi)容創(chuàng)作、廣告設(shè)計、醫(yī)學(xué)影像以及新興的AI原生生產(chǎn)工具中。
其背后的核心機制是「逐步去噪」過程:從一張完全隨機的圖開始,模型通過上百次迭代逐步還原出清晰、真實的圖像。這種逐步精化的策略雖然保證了生成質(zhì)量,卻也帶來了顯著的推理延遲,成為制約其部署效率的瓶頸,尤其在移動設(shè)備、實時生成和大規(guī)模應(yīng)用中表現(xiàn)尤為明顯。
為了解決這一問題,研究者提出了三種主要的加速思路:一是通過數(shù)值求解器(ODESolvers)減少迭代步數(shù);二是采用模型蒸餾(Distillation)將多步過程壓縮為少步甚至一步;三是借助并行計算(Parallelism)加速多個計算路徑的推理。然而,每種方法都存在局限:數(shù)值求解器在迭代步數(shù)極少時往往會損失生成質(zhì)量;蒸餾方法則需重新訓(xùn)練模型,成本高昂;并行方法雖具潛力,但在低步數(shù)場景下仍未被充分挖掘。
為此,西湖大學(xué)AGI實驗室提出了一種融合三類優(yōu)勢的創(chuàng)新方案——EnsembleParallelDirectionSolver(EPD-Solver)。該方法以數(shù)值求解器為骨架,通過輕量級蒸餾學(xué)習(xí)獲得少量可學(xué)習(xí)參數(shù),并在每次迭代中并行計算多個方向的梯度,再以加權(quán)方式融合,從而有效減少數(shù)值積分誤差。這種方式不僅無需對模型進行大規(guī)模改動,也不會帶來額外的延遲開銷,成功實現(xiàn)在3–5步采樣下仍能生成高質(zhì)量圖像。
更進一步,EPD-Solver還能以「插件」的形式應(yīng)用于現(xiàn)有的主流求解器中,顯著提升其生成質(zhì)量和效率。大量實驗表明,在相同計算延遲下,該方法在CIFAR-10、FFHQ、ImageNet等多個基準測試中取得了領(lǐng)先的圖像生成效果,展示出其在低延遲高質(zhì)量生成任務(wù)中的巨大潛力。
論文題目:DistillingParallelGradientsforFastODESolversofDiffusionModels論文地址:https://arxiv.org/abs/2507.14797項目地址:https://github.com/BeierZhu/EPD
動機
從宏觀層面來看,各類ODE求解器都在「如何利用有限的梯度估計去近似積分」上下功夫,如下圖所示:
EDM和AMED在DDIM的基礎(chǔ)上,增加了一次額外梯度評估(t?與s?)來提升積分近似精度。該方法的核心動機是將額外梯度評估擴展到多個時刻,提出EPD-Solver:
理論支撐(Meanvaluetheoremforvector-valuedfunctions)
方法
參數(shù)定義與更新
在每個采樣步驟n中定義參數(shù)集Θ?={τ??,λ??,δ??,o?}????,其中:
τ??∈(t???,t?):第k個中間時刻λ??≥0且∑?λ??=1:梯度融合權(quán)重δ??:中間時刻偏移量o?:輸出尺度擾動參數(shù)
推理更新規(guī)則
蒸餾訓(xùn)練流程
1.教師軌跡生成:采用高精度ODE解算器(如DPM-Solver)在擴展時間表???上生成參考狀態(tài);
2.學(xué)生軌跡采樣:在相同初始噪聲下,使用學(xué)生時間表???采樣得到學(xué)生狀態(tài);
3.目標函數(shù):針對每步n,最小化學(xué)生與教師狀態(tài)差異
4.端到端優(yōu)化:通過N次反向傳播,聯(lián)合優(yōu)化所有參數(shù)Θ?:?
插件化集成
EPD?Plugin設(shè)計為可插拔模塊,可無縫集成至現(xiàn)有多步ODE求解器(如iPNDM)。用戶僅需替換梯度計算與融合流程,即可在原框架下獲得加速與質(zhì)量提升。
實驗結(jié)果
1.性能全面領(lǐng)先:在CIFAR-10、FFHQ、ImageNet和LSUNBedroom四個數(shù)據(jù)集的測試中,EPD-Solver(當K=2時)在所有NFE(函數(shù)求值次數(shù))設(shè)置下,其FID分數(shù)均比基線求解器有持續(xù)且顯著的提升。
2.低NFE場景優(yōu)勢明顯:在極低的NFE設(shè)置(例如3NFE)下,EPD-Solver的優(yōu)勢尤為突出。例如,在LSUNBedroom數(shù)據(jù)集上,EPD-Solver的FID分數(shù)為13.21,而次優(yōu)的基線方法AMED-Solver的FID分數(shù)為58.21。
3.插件(Plugin)性能出色:當作為插件(EPD-Plugin)應(yīng)用于iPNDM求解器時,該方法同樣表現(xiàn)出色。尤其是在NFE大于7的場景,其性能普遍優(yōu)于EPD-Solver。
通過可視化兩個隨機像素在生成過程中的演變路徑,可以觀察到EPD-Solver的軌跡與「教師」軌跡展現(xiàn)出高度的一致性。相比之下,DDIM、DPM-Solver和iPNDM等其他求解器的軌跡相比教師軌跡明顯偏離。
在StableDiffusionv1.5模型上,EPD-Solver通過在極低的采樣步數(shù)下(如8-20NFE)生成質(zhì)量遠超DPM-Solver++(2M)和AMED-Plugin等先進求解器,從而展現(xiàn)出顯著的加速效果。
結(jié)語
通過EPD-Solver,西湖大學(xué)的研究人員展示了如何利用其創(chuàng)新的并行梯度評估機制,在不增加單步推理延遲的前提下,高效且精確地減小了生圖模型每步采樣的截斷誤差,緩解擴散模型在低步數(shù)采樣下的圖像質(zhì)量退化問題。
該方法的核心優(yōu)勢在于兩點:
1.并行效率與精度提升:通過引入多個可學(xué)習(xí)的中間時間步梯度評估并將其進行凸組合加權(quán),顯著提升了ODE積分近似的精度,從而降低了局部截斷誤差。尤為關(guān)鍵的是,這些額外的梯度計算因其獨立性,可實現(xiàn)完全并行化,在保持單步推理零延遲增加的前提下提升了生成質(zhì)量。
2.訓(xùn)練輕量與即插即用:僅需通過蒸餾方式優(yōu)化一個極小規(guī)模的可學(xué)習(xí)參數(shù)集,避免了代價高昂的擴散模型重訓(xùn)練或微調(diào)。該方法還可作為EPD-Plugin輕松集成至現(xiàn)有ODE采樣器(如iPNDM),進一步擴展其應(yīng)用范圍。
綜上,EPD-Solver突破了擴散模型在低延遲采樣時速度與圖像質(zhì)量的核心權(quán)衡瓶頸,提供了一種高效、實用且易于部署的新方法。其在多個圖像生成基準上顯著優(yōu)于現(xiàn)有先進求解器的實驗表現(xiàn),有力證明了并行計算是推動擴散模型高效采樣發(fā)展的一個極具潛力的研究方向。
網(wǎng)文沒有好書了?這幾本好書千萬不能錯過《奮斗在紅樓》名列其中
5本公認的好看神作,書荒趕緊看過來!本本堪比《奮斗在紅樓》
以《漢鄉(xiāng)》為代表的八本經(jīng)典歷史小說,各有特色,越品越有味兒
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。