檢承望
本文第一作者是自南洋理工大學(xué)的博后朱貝爾和西湖大學(xué)的博士生王若禹,主要研究方向分別是RobustMachineLearning和DiffusionModel,該論文已被ICCV2025錄用。
近年來,擴(kuò)散模型(DiffusionModels)憑借出色的生成質(zhì)量,迅速成為圖像、視頻、語音、3D內(nèi)容等生成任務(wù)中的主流技術(shù)。從文本生成圖像(如StableDiffusion),到高質(zhì)量人臉合成、音頻生成,再到三維形狀建模,擴(kuò)散模型正在廣泛應(yīng)用于游戲、虛擬現(xiàn)實(shí)、數(shù)字內(nèi)容創(chuàng)作、廣告設(shè)計(jì)、醫(yī)學(xué)影像以及新興的AI原生生產(chǎn)工具中。
其背后的核心機(jī)制是「逐步去噪」過程:從一張完全隨機(jī)的圖開始,模型通過上百次迭代逐步還原出清晰、真實(shí)的圖像。這種逐步精化的策略雖然保證了生成質(zhì)量,卻也帶來了顯著的推理延遲,成為制約其部署效率的瓶頸,尤其在移動(dòng)設(shè)備、實(shí)時(shí)生成和大規(guī)模應(yīng)用中表現(xiàn)尤為明顯。
為了解決這一問題,研究者提出了三種主要的加速思路:一是通過數(shù)值求解器(ODESolvers)減少迭代步數(shù);二是采用模型蒸餾(Distillation)將多步過程壓縮為少步甚至一步;三是借助并行計(jì)算(Parallelism)加速多個(gè)計(jì)算路徑的推理。然而,每種方法都存在局限:數(shù)值求解器在迭代步數(shù)極少時(shí)往往會(huì)損失生成質(zhì)量;蒸餾方法則需重新訓(xùn)練模型,成本高昂;并行方法雖具潛力,但在低步數(shù)場(chǎng)景下仍未被充分挖掘。
為此,西湖大學(xué)AGI實(shí)驗(yàn)室提出了一種融合三類優(yōu)勢(shì)的創(chuàng)新方案——EnsembleParallelDirectionSolver(EPD-Solver)。該方法以數(shù)值求解器為骨架,通過輕量級(jí)蒸餾學(xué)習(xí)獲得少量可學(xué)習(xí)參數(shù),并在每次迭代中并行計(jì)算多個(gè)方向的梯度,再以加權(quán)方式融合,從而有效減少數(shù)值積分誤差。這種方式不僅無需對(duì)模型進(jìn)行大規(guī)模改動(dòng),也不會(huì)帶來額外的延遲開銷,成功實(shí)現(xiàn)在3–5步采樣下仍能生成高質(zhì)量圖像。
更進(jìn)一步,EPD-Solver還能以「插件」的形式應(yīng)用于現(xiàn)有的主流求解器中,顯著提升其生成質(zhì)量和效率。大量實(shí)驗(yàn)表明,在相同計(jì)算延遲下,該方法在CIFAR-10、FFHQ、ImageNet等多個(gè)基準(zhǔn)測(cè)試中取得了領(lǐng)先的圖像生成效果,展示出其在低延遲高質(zhì)量生成任務(wù)中的巨大潛力。
論文題目:DistillingParallelGradientsforFastODESolversofDiffusionModels論文地址:https://arxiv.org/abs/2507.14797項(xiàng)目地址:https://github.com/BeierZhu/EPD
動(dòng)機(jī)
從宏觀層面來看,各類ODE求解器都在「如何利用有限的梯度估計(jì)去近似積分」上下功夫,如下圖所示:
EDM和AMED在DDIM的基礎(chǔ)上,增加了一次額外梯度評(píng)估(t?與s?)來提升積分近似精度。該方法的核心動(dòng)機(jī)是將額外梯度評(píng)估擴(kuò)展到多個(gè)時(shí)刻,提出EPD-Solver:
理論支撐(Meanvaluetheoremforvector-valuedfunctions)
方法
參數(shù)定義與更新
在每個(gè)采樣步驟n中定義參數(shù)集Θ?={τ??,λ??,δ??,o?}????,其中:
τ??∈(t???,t?):第k個(gè)中間時(shí)刻λ??≥0且∑?λ??=1:梯度融合權(quán)重δ??:中間時(shí)刻偏移量o?:輸出尺度擾動(dòng)參數(shù)
推理更新規(guī)則
蒸餾訓(xùn)練流程
1.教師軌跡生成:采用高精度ODE解算器(如DPM-Solver)在擴(kuò)展時(shí)間表???上生成參考狀態(tài);
2.學(xué)生軌跡采樣:在相同初始噪聲下,使用學(xué)生時(shí)間表???采樣得到學(xué)生狀態(tài);
3.目標(biāo)函數(shù):針對(duì)每步n,最小化學(xué)生與教師狀態(tài)差異
4.端到端優(yōu)化:通過N次反向傳播,聯(lián)合優(yōu)化所有參數(shù)Θ?:?
插件化集成
EPD?Plugin設(shè)計(jì)為可插拔模塊,可無縫集成至現(xiàn)有多步ODE求解器(如iPNDM)。用戶僅需替換梯度計(jì)算與融合流程,即可在原框架下獲得加速與質(zhì)量提升。
實(shí)驗(yàn)結(jié)果
1.性能全面領(lǐng)先:在CIFAR-10、FFHQ、ImageNet和LSUNBedroom四個(gè)數(shù)據(jù)集的測(cè)試中,EPD-Solver(當(dāng)K=2時(shí))在所有NFE(函數(shù)求值次數(shù))設(shè)置下,其FID分?jǐn)?shù)均比基線求解器有持續(xù)且顯著的提升。
2.低NFE場(chǎng)景優(yōu)勢(shì)明顯:在極低的NFE設(shè)置(例如3NFE)下,EPD-Solver的優(yōu)勢(shì)尤為突出。例如,在LSUNBedroom數(shù)據(jù)集上,EPD-Solver的FID分?jǐn)?shù)為13.21,而次優(yōu)的基線方法AMED-Solver的FID分?jǐn)?shù)為58.21。
3.插件(Plugin)性能出色:當(dāng)作為插件(EPD-Plugin)應(yīng)用于iPNDM求解器時(shí),該方法同樣表現(xiàn)出色。尤其是在NFE大于7的場(chǎng)景,其性能普遍優(yōu)于EPD-Solver。
通過可視化兩個(gè)隨機(jī)像素在生成過程中的演變路徑,可以觀察到EPD-Solver的軌跡與「教師」軌跡展現(xiàn)出高度的一致性。相比之下,DDIM、DPM-Solver和iPNDM等其他求解器的軌跡相比教師軌跡明顯偏離。
在StableDiffusionv1.5模型上,EPD-Solver通過在極低的采樣步數(shù)下(如8-20NFE)生成質(zhì)量遠(yuǎn)超DPM-Solver++(2M)和AMED-Plugin等先進(jìn)求解器,從而展現(xiàn)出顯著的加速效果。
結(jié)語
通過EPD-Solver,西湖大學(xué)的研究人員展示了如何利用其創(chuàng)新的并行梯度評(píng)估機(jī)制,在不增加單步推理延遲的前提下,高效且精確地減小了生圖模型每步采樣的截?cái)嗾`差,緩解擴(kuò)散模型在低步數(shù)采樣下的圖像質(zhì)量退化問題。
該方法的核心優(yōu)勢(shì)在于兩點(diǎn):
1.并行效率與精度提升:通過引入多個(gè)可學(xué)習(xí)的中間時(shí)間步梯度評(píng)估并將其進(jìn)行凸組合加權(quán),顯著提升了ODE積分近似的精度,從而降低了局部截?cái)嗾`差。尤為關(guān)鍵的是,這些額外的梯度計(jì)算因其獨(dú)立性,可實(shí)現(xiàn)完全并行化,在保持單步推理零延遲增加的前提下提升了生成質(zhì)量。
2.訓(xùn)練輕量與即插即用:僅需通過蒸餾方式優(yōu)化一個(gè)極小規(guī)模的可學(xué)習(xí)參數(shù)集,避免了代價(jià)高昂的擴(kuò)散模型重訓(xùn)練或微調(diào)。該方法還可作為EPD-Plugin輕松集成至現(xiàn)有ODE采樣器(如iPNDM),進(jìn)一步擴(kuò)展其應(yīng)用范圍。
綜上,EPD-Solver突破了擴(kuò)散模型在低延遲采樣時(shí)速度與圖像質(zhì)量的核心權(quán)衡瓶頸,提供了一種高效、實(shí)用且易于部署的新方法。其在多個(gè)圖像生成基準(zhǔn)上顯著優(yōu)于現(xiàn)有先進(jìn)求解器的實(shí)驗(yàn)表現(xiàn),有力證明了并行計(jì)算是推動(dòng)擴(kuò)散模型高效采樣發(fā)展的一個(gè)極具潛力的研究方向。
魔獸世界:血色十字軍套入手指南—板甲鎖甲職業(yè)必備的幻化
血色三件套分別是:血色狂熱者的加護(hù)盾牌血色狂熱者的披風(fēng)血色狂熱者的長袍這些裝備的數(shù)值可查,模型未知,不過參考過往血色士兵的形象,特別是活躍在西瘟疫和東瘟疫那些,應(yīng)該八九不離十。一枚新的盾牌模型被發(fā)現(xiàn),從顏色和圖標(biāo)來看,像是血色主題。提到血色幻化,搭配自然少不了“血色十字軍徽章”,血色武器庫后面會(huì)介紹-|。
來源:紅網(wǎng)
作者:宓天罡
編輯:陳惠雯
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。