王俊旺
本文第一作者是自南洋理工大學(xué)的博后朱貝爾和西湖大學(xué)的博士生王若禹,主要研究方向分別是RobustMachineLearning和DiffusionModel,該論文已被ICCV2025錄用。
近年來,擴(kuò)散模型(DiffusionModels)憑借出色的生成質(zhì)量,迅速成為圖像、視頻、語音、3D內(nèi)容等生成任務(wù)中的主流技術(shù)。從文本生成圖像(如StableDiffusion),到高質(zhì)量人臉合成、音頻生成,再到三維形狀建模,擴(kuò)散模型正在廣泛應(yīng)用于游戲、虛擬現(xiàn)實(shí)、數(shù)字內(nèi)容創(chuàng)作、廣告設(shè)計、醫(yī)學(xué)影像以及新興的AI原生生產(chǎn)工具中。
其背后的核心機(jī)制是「逐步去噪」過程:從一張完全隨機(jī)的圖開始,模型通過上百次迭代逐步還原出清晰、真實(shí)的圖像。這種逐步精化的策略雖然保證了生成質(zhì)量,卻也帶來了顯著的推理延遲,成為制約其部署效率的瓶頸,尤其在移動設(shè)備、實(shí)時生成和大規(guī)模應(yīng)用中表現(xiàn)尤為明顯。
為了解決這一問題,研究者提出了三種主要的加速思路:一是通過數(shù)值求解器(ODESolvers)減少迭代步數(shù);二是采用模型蒸餾(Distillation)將多步過程壓縮為少步甚至一步;三是借助并行計算(Parallelism)加速多個計算路徑的推理。然而,每種方法都存在局限:數(shù)值求解器在迭代步數(shù)極少時往往會損失生成質(zhì)量;蒸餾方法則需重新訓(xùn)練模型,成本高昂;并行方法雖具潛力,但在低步數(shù)場景下仍未被充分挖掘。
為此,西湖大學(xué)AGI實(shí)驗室提出了一種融合三類優(yōu)勢的創(chuàng)新方案——EnsembleParallelDirectionSolver(EPD-Solver)。該方法以數(shù)值求解器為骨架,通過輕量級蒸餾學(xué)習(xí)獲得少量可學(xué)習(xí)參數(shù),并在每次迭代中并行計算多個方向的梯度,再以加權(quán)方式融合,從而有效減少數(shù)值積分誤差。這種方式不僅無需對模型進(jìn)行大規(guī)模改動,也不會帶來額外的延遲開銷,成功實(shí)現(xiàn)在3–5步采樣下仍能生成高質(zhì)量圖像。
更進(jìn)一步,EPD-Solver還能以「插件」的形式應(yīng)用于現(xiàn)有的主流求解器中,顯著提升其生成質(zhì)量和效率。大量實(shí)驗表明,在相同計算延遲下,該方法在CIFAR-10、FFHQ、ImageNet等多個基準(zhǔn)測試中取得了領(lǐng)先的圖像生成效果,展示出其在低延遲高質(zhì)量生成任務(wù)中的巨大潛力。
論文題目:DistillingParallelGradientsforFastODESolversofDiffusionModels論文地址:https://arxiv.org/abs/2507.14797項目地址:https://github.com/BeierZhu/EPD
動機(jī)
從宏觀層面來看,各類ODE求解器都在「如何利用有限的梯度估計去近似積分」上下功夫,如下圖所示:
EDM和AMED在DDIM的基礎(chǔ)上,增加了一次額外梯度評估(t?與s?)來提升積分近似精度。該方法的核心動機(jī)是將額外梯度評估擴(kuò)展到多個時刻,提出EPD-Solver:
理論支撐(Meanvaluetheoremforvector-valuedfunctions)
方法
參數(shù)定義與更新
在每個采樣步驟n中定義參數(shù)集Θ?={τ??,λ??,δ??,o?}????,其中:
τ??∈(t???,t?):第k個中間時刻λ??≥0且∑?λ??=1:梯度融合權(quán)重δ??:中間時刻偏移量o?:輸出尺度擾動參數(shù)
推理更新規(guī)則
蒸餾訓(xùn)練流程
1.教師軌跡生成:采用高精度ODE解算器(如DPM-Solver)在擴(kuò)展時間表???上生成參考狀態(tài);
2.學(xué)生軌跡采樣:在相同初始噪聲下,使用學(xué)生時間表???采樣得到學(xué)生狀態(tài);
3.目標(biāo)函數(shù):針對每步n,最小化學(xué)生與教師狀態(tài)差異
4.端到端優(yōu)化:通過N次反向傳播,聯(lián)合優(yōu)化所有參數(shù)Θ?:?
插件化集成
EPD?Plugin設(shè)計為可插拔模塊,可無縫集成至現(xiàn)有多步ODE求解器(如iPNDM)。用戶僅需替換梯度計算與融合流程,即可在原框架下獲得加速與質(zhì)量提升。
實(shí)驗結(jié)果
1.性能全面領(lǐng)先:在CIFAR-10、FFHQ、ImageNet和LSUNBedroom四個數(shù)據(jù)集的測試中,EPD-Solver(當(dāng)K=2時)在所有NFE(函數(shù)求值次數(shù))設(shè)置下,其FID分?jǐn)?shù)均比基線求解器有持續(xù)且顯著的提升。
2.低NFE場景優(yōu)勢明顯:在極低的NFE設(shè)置(例如3NFE)下,EPD-Solver的優(yōu)勢尤為突出。例如,在LSUNBedroom數(shù)據(jù)集上,EPD-Solver的FID分?jǐn)?shù)為13.21,而次優(yōu)的基線方法AMED-Solver的FID分?jǐn)?shù)為58.21。
3.插件(Plugin)性能出色:當(dāng)作為插件(EPD-Plugin)應(yīng)用于iPNDM求解器時,該方法同樣表現(xiàn)出色。尤其是在NFE大于7的場景,其性能普遍優(yōu)于EPD-Solver。
通過可視化兩個隨機(jī)像素在生成過程中的演變路徑,可以觀察到EPD-Solver的軌跡與「教師」軌跡展現(xiàn)出高度的一致性。相比之下,DDIM、DPM-Solver和iPNDM等其他求解器的軌跡相比教師軌跡明顯偏離。
在StableDiffusionv1.5模型上,EPD-Solver通過在極低的采樣步數(shù)下(如8-20NFE)生成質(zhì)量遠(yuǎn)超DPM-Solver++(2M)和AMED-Plugin等先進(jìn)求解器,從而展現(xiàn)出顯著的加速效果。
結(jié)語
通過EPD-Solver,西湖大學(xué)的研究人員展示了如何利用其創(chuàng)新的并行梯度評估機(jī)制,在不增加單步推理延遲的前提下,高效且精確地減小了生圖模型每步采樣的截斷誤差,緩解擴(kuò)散模型在低步數(shù)采樣下的圖像質(zhì)量退化問題。
該方法的核心優(yōu)勢在于兩點(diǎn):
1.并行效率與精度提升:通過引入多個可學(xué)習(xí)的中間時間步梯度評估并將其進(jìn)行凸組合加權(quán),顯著提升了ODE積分近似的精度,從而降低了局部截斷誤差。尤為關(guān)鍵的是,這些額外的梯度計算因其獨(dú)立性,可實(shí)現(xiàn)完全并行化,在保持單步推理零延遲增加的前提下提升了生成質(zhì)量。
2.訓(xùn)練輕量與即插即用:僅需通過蒸餾方式優(yōu)化一個極小規(guī)模的可學(xué)習(xí)參數(shù)集,避免了代價高昂的擴(kuò)散模型重訓(xùn)練或微調(diào)。該方法還可作為EPD-Plugin輕松集成至現(xiàn)有ODE采樣器(如iPNDM),進(jìn)一步擴(kuò)展其應(yīng)用范圍。
綜上,EPD-Solver突破了擴(kuò)散模型在低延遲采樣時速度與圖像質(zhì)量的核心權(quán)衡瓶頸,提供了一種高效、實(shí)用且易于部署的新方法。其在多個圖像生成基準(zhǔn)上顯著優(yōu)于現(xiàn)有先進(jìn)求解器的實(shí)驗表現(xiàn),有力證明了并行計算是推動擴(kuò)散模型高效采樣發(fā)展的一個極具潛力的研究方向。
詩詞三首:相思盡是風(fēng)雨情
在這相思風(fēng)雨的時刻,讓我們共同守望,守護(hù)著心中的愛。讓我們用真誠和溫暖去傳遞,用愛意和關(guān)懷去包容。即使風(fēng)雨不斷,我們相信,愛會化解所有的遺憾和痛苦,讓我們重逢在那溫暖的陽光下,繼續(xù)心心相印,共度人生的美好。在這雨打相思、風(fēng)續(xù)別離的唯美情感中,讓我們堅信,相思之間的距離并不能阻擋兩顆相愛的心靈還有呢?
風(fēng)雨人生路,一念相思情
不同的詩人寫相思,各不相同。表達(dá)無盡相思的古詩詞大全,收藏起來吧!《江城子·乙卯正月二十日夜記夢》——宋·蘇軾十年生死兩茫茫,不思量,自難忘-_。千里孤墳,無處話凄涼??v使相逢應(yīng)不識,塵滿面,鬢如霜_-。夜來幽夢忽還鄉(xiāng),小軒窗,正梳妝。相顧無言,惟有淚千行。料得年年腸斷處,明月夜,短松岡|_。你我是什么|。
表達(dá)相思的詩句,每一句都是傳頌千古的經(jīng)典
那條無形的絲線,穿越了山川湖海,哪怕歷經(jīng)風(fēng)雨,亦從未斷裂,它倔強(qiáng)地堅守著我們的約定|。在這思念的藍(lán)色海洋,我獨(dú)自泛舟,既孤獨(dú)又堅定。凝望著彼岸,滿心期盼著重逢,海浪似乎也在為我鼓勁-。愿這一腔深情,匯聚成洶涌的海潮,奔騰不息,好似脫韁的野馬。親愛的,若你能聽見,請輕輕閉上雙眼,感受我的相思之意等我繼續(xù)說。
來源:紅網(wǎng)
作者:夢
編輯:阮孟勛
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。