本文第一作者是自南洋理工大學的博后朱貝爾和西湖大學的博士生王若禹,主要研究方向分別是RobustMachineLearning和DiffusionModel,該論文已被ICCV2025錄用。
近年來,擴散模型(DiffusionModels)憑借出色的生成質量,迅速成為圖像、視頻、語音、3D內容等生成任務中的主流技術。從文本生成圖像(如StableDiffusion),到高質量人臉合成、音頻生成,再到三維形狀建模,擴散模型正在廣泛應用于游戲、虛擬現(xiàn)實、數字內容創(chuàng)作、廣告設計、醫(yī)學影像以及新興的AI原生生產工具中。
其背后的核心機制是「逐步去噪」過程:從一張完全隨機的圖開始,模型通過上百次迭代逐步還原出清晰、真實的圖像。這種逐步精化的策略雖然保證了生成質量,卻也帶來了顯著的推理延遲,成為制約其部署效率的瓶頸,尤其在移動設備、實時生成和大規(guī)模應用中表現(xiàn)尤為明顯。
為了解決這一問題,研究者提出了三種主要的加速思路:一是通過數值求解器(ODESolvers)減少迭代步數;二是采用模型蒸餾(Distillation)將多步過程壓縮為少步甚至一步;三是借助并行計算(Parallelism)加速多個計算路徑的推理。然而,每種方法都存在局限:數值求解器在迭代步數極少時往往會損失生成質量;蒸餾方法則需重新訓練模型,成本高昂;并行方法雖具潛力,但在低步數場景下仍未被充分挖掘。
為此,西湖大學AGI實驗室提出了一種融合三類優(yōu)勢的創(chuàng)新方案——EnsembleParallelDirectionSolver(EPD-Solver)。該方法以數值求解器為骨架,通過輕量級蒸餾學習獲得少量可學習參數,并在每次迭代中并行計算多個方向的梯度,再以加權方式融合,從而有效減少數值積分誤差。這種方式不僅無需對模型進行大規(guī)模改動,也不會帶來額外的延遲開銷,成功實現(xiàn)在3–5步采樣下仍能生成高質量圖像。
更進一步,EPD-Solver還能以「插件」的形式應用于現(xiàn)有的主流求解器中,顯著提升其生成質量和效率。大量實驗表明,在相同計算延遲下,該方法在CIFAR-10、FFHQ、ImageNet等多個基準測試中取得了領先的圖像生成效果,展示出其在低延遲高質量生成任務中的巨大潛力。
論文題目:DistillingParallelGradientsforFastODESolversofDiffusionModels論文地址:https://arxiv.org/abs/2507.14797項目地址:https://github.com/BeierZhu/EPD
動機
從宏觀層面來看,各類ODE求解器都在「如何利用有限的梯度估計去近似積分」上下功夫,如下圖所示:
EDM和AMED在DDIM的基礎上,增加了一次額外梯度評估(t?與s?)來提升積分近似精度。該方法的核心動機是將額外梯度評估擴展到多個時刻,提出EPD-Solver:
理論支撐(Meanvaluetheoremforvector-valuedfunctions)
方法
參數定義與更新
在每個采樣步驟n中定義參數集Θ?={τ??,λ??,δ??,o?}????,其中:
τ??∈(t???,t?):第k個中間時刻λ??≥0且∑?λ??=1:梯度融合權重δ??:中間時刻偏移量o?:輸出尺度擾動參數
推理更新規(guī)則
蒸餾訓練流程
1.教師軌跡生成:采用高精度ODE解算器(如DPM-Solver)在擴展時間表???上生成參考狀態(tài);
2.學生軌跡采樣:在相同初始噪聲下,使用學生時間表???采樣得到學生狀態(tài);
3.目標函數:針對每步n,最小化學生與教師狀態(tài)差異
4.端到端優(yōu)化:通過N次反向傳播,聯(lián)合優(yōu)化所有參數Θ?:?
插件化集成
EPD?Plugin設計為可插拔模塊,可無縫集成至現(xiàn)有多步ODE求解器(如iPNDM)。用戶僅需替換梯度計算與融合流程,即可在原框架下獲得加速與質量提升。
實驗結果
1.性能全面領先:在CIFAR-10、FFHQ、ImageNet和LSUNBedroom四個數據集的測試中,EPD-Solver(當K=2時)在所有NFE(函數求值次數)設置下,其FID分數均比基線求解器有持續(xù)且顯著的提升。
2.低NFE場景優(yōu)勢明顯:在極低的NFE設置(例如3NFE)下,EPD-Solver的優(yōu)勢尤為突出。例如,在LSUNBedroom數據集上,EPD-Solver的FID分數為13.21,而次優(yōu)的基線方法AMED-Solver的FID分數為58.21。
3.插件(Plugin)性能出色:當作為插件(EPD-Plugin)應用于iPNDM求解器時,該方法同樣表現(xiàn)出色。尤其是在NFE大于7的場景,其性能普遍優(yōu)于EPD-Solver。
通過可視化兩個隨機像素在生成過程中的演變路徑,可以觀察到EPD-Solver的軌跡與「教師」軌跡展現(xiàn)出高度的一致性。相比之下,DDIM、DPM-Solver和iPNDM等其他求解器的軌跡相比教師軌跡明顯偏離。
在StableDiffusionv1.5模型上,EPD-Solver通過在極低的采樣步數下(如8-20NFE)生成質量遠超DPM-Solver++(2M)和AMED-Plugin等先進求解器,從而展現(xiàn)出顯著的加速效果。
結語
通過EPD-Solver,西湖大學的研究人員展示了如何利用其創(chuàng)新的并行梯度評估機制,在不增加單步推理延遲的前提下,高效且精確地減小了生圖模型每步采樣的截斷誤差,緩解擴散模型在低步數采樣下的圖像質量退化問題。
該方法的核心優(yōu)勢在于兩點:
1.并行效率與精度提升:通過引入多個可學習的中間時間步梯度評估并將其進行凸組合加權,顯著提升了ODE積分近似的精度,從而降低了局部截斷誤差。尤為關鍵的是,這些額外的梯度計算因其獨立性,可實現(xiàn)完全并行化,在保持單步推理零延遲增加的前提下提升了生成質量。
2.訓練輕量與即插即用:僅需通過蒸餾方式優(yōu)化一個極小規(guī)模的可學習參數集,避免了代價高昂的擴散模型重訓練或微調。該方法還可作為EPD-Plugin輕松集成至現(xiàn)有ODE采樣器(如iPNDM),進一步擴展其應用范圍。
綜上,EPD-Solver突破了擴散模型在低延遲采樣時速度與圖像質量的核心權衡瓶頸,提供了一種高效、實用且易于部署的新方法。其在多個圖像生成基準上顯著優(yōu)于現(xiàn)有先進求解器的實驗表現(xiàn),有力證明了并行計算是推動擴散模型高效采樣發(fā)展的一個極具潛力的研究方向。
肉番、表番、里番,這些動漫界的基本名詞,都是什么意思呢?
這類番劇劇情什么的都是浮云,畫面的精彩程度才是王道。不過,其中也難免會出現(xiàn)幾部精品,像是《惡魔高?!?,《噬血狂襲》,《新妹魔王的契約者》,都是那種劇情,畫風,經費統(tǒng)統(tǒng)在線的精品。里番這是最受紳士們喜愛的番劇,也是最難尋覓的番劇類型_-。這類番劇的劇情,放浪不羈,隨心所欲,不受任何常識與倫理的桎梏|??催@類 即將師考試的梓七為放松壓力在特殊日子-鬼節(jié)這天晚上來到商樓盲盒機前抽娃娃,連抽百次花費千元卻在走之跡發(fā)現(xiàn)自己漏了一盒,打開竟是自己心念的隱藏版娃娃-血玫蛛兔,殊不知它也正在找著他這個契約者,簽訂契約后這個身體便由它掌控,還能擁有魔法,一些詭異事也隨之而來。時間一長,他便發(fā)現(xiàn)小瑰其實是詭寵,甚后面會介紹-。上一世繼妹設計讓契約獸將我掏空心肺,重活一世我要讓她一無所有