本論文主要作者來自小紅書AIGC團(tuán)隊(duì)(Dynamic-X-Lab),Dynamic?X?LAB是一個(gè)專注于AIGC領(lǐng)域的研究團(tuán)隊(duì),致力于推動(dòng)姿態(tài)驅(qū)動(dòng)的人像生成與視頻動(dòng)畫技術(shù)。他們以高質(zhì)量、高可控性的生成模型為核心,圍繞文生圖(t2i)、圖像生成(i2i)、圖像轉(zhuǎn)視頻(i2v)和風(fēng)格遷移加速等方向展開研究,并通過完整的開源方案分享給開發(fā)者與研究者社區(qū)。
基于一致性模型(ConsistencyModels,CMs)的軌跡蒸餾(TrajectoryDistillation)為加速擴(kuò)散模型提供了一個(gè)有效框架,通過減少推理步驟來提升效率。然而,現(xiàn)有的一致性模型在風(fēng)格化任務(wù)中會(huì)削弱風(fēng)格相似性,并損害美學(xué)質(zhì)量——尤其是在處理從部分加噪輸入開始去噪的圖像到圖像(image-to-image)或視頻到視頻(video-to-video)變換任務(wù)時(shí)問題尤為明顯。
這一核心問題源于當(dāng)前方法要求學(xué)生模型的概率流常微分方程(PF-ODE)軌跡在初始步驟與其不完美的教師模型對齊。這種僅限初始步驟對齊的策略無法保證整個(gè)軌跡的一致性,從而影響了生成結(jié)果的整體質(zhì)量。
為了解決這一問題,文章提出了單軌跡蒸餾(SingleTrajectoryDistillation,STD),一個(gè)從部分噪聲狀態(tài)出發(fā)的訓(xùn)練框架。
為了抵消STD引入的額外時(shí)間開銷,文章設(shè)計(jì)了一個(gè)軌跡狀態(tài)庫(TrajectoryBank),預(yù)先存儲教師模型PF-ODE軌跡中的中間狀態(tài),從而有效減輕學(xué)生模型訓(xùn)練時(shí)的計(jì)算負(fù)擔(dān)。這一機(jī)制確保了STD在訓(xùn)練效率上可與傳統(tǒng)一致性模型保持一致。
此外,該工作還引入了一個(gè)非對稱對抗損失(AsymmetricAdversarialLoss),可顯著增強(qiáng)生成結(jié)果的風(fēng)格一致性和感知質(zhì)量。
在圖像與視頻風(fēng)格化任務(wù)上的大量實(shí)驗(yàn)證明,STD在風(fēng)格相似性和美學(xué)評估方面均優(yōu)于現(xiàn)有的加速擴(kuò)散模型。
論文地址:https://arxiv.org/abs/2412.18945項(xiàng)目主頁:https://single-trajectory-distillation.github.io/項(xiàng)目Github:https://github.com/dynamic-X-LAB/Single-Trajectory-Distillation項(xiàng)目模型:https://huggingface.co/Single-Trajectory-Distillation/Single-Trajectory-Distillation關(guān)鍵詞:AIGC、視頻風(fēng)格遷移、擴(kuò)散模型加速
STD與其他方法的差異
如圖2所示,(a)中的傳統(tǒng)一致性蒸餾方法(OtherCMs)從x_0加噪得到不同的x_t,再擬合多條PF-ODE軌跡的初始部分,存在軌跡不對齊問題。而在(b)中,文章提出的單軌跡蒸餾(Single-TrajectoryDistillation,STD)方法則從一個(gè)固定的加噪狀態(tài)x_(τ_η)出發(fā),通過教師模型完整地去噪出多個(gè)x_t,并以此為訓(xùn)練目標(biāo),使學(xué)生模型在一條完整軌跡上實(shí)現(xiàn)自一致性。這種策略有效解決了訓(xùn)練-推理路徑不一致的問題,提升了整體生成質(zhì)量。
為了避免從x_(τ_η)開始反復(fù)推理帶來的訓(xùn)練開銷,進(jìn)一步提出了軌跡緩存庫(trajectorybank),用于預(yù)存教師模型軌跡中的中間狀態(tài),從而保持訓(xùn)練效率不變。同時(shí),引入了非對稱對抗損失(asymmetricadversarialloss),對不同噪聲級別下的生成圖與真實(shí)圖進(jìn)行對比,有效提升圖像飽和度,減少紋理噪聲。
前置理論
【擴(kuò)散模型】
【軌跡】
【基于部分加噪的編輯】
方法介紹
【單軌跡蒸餾理論】
在擴(kuò)散模型中,理想情況下反向去噪軌跡應(yīng)與前向擴(kuò)散軌跡嚴(yán)格互逆。但實(shí)際中,不完美去噪模型會(huì)導(dǎo)致:
針對圖像/視頻風(fēng)格化任務(wù)中固定起點(diǎn)η的需求,提出基于一致性模型僅在固定起點(diǎn)的單條軌跡上做一致性蒸餾,具體包含兩個(gè)關(guān)鍵點(diǎn):
根據(jù)第二部分對軌跡的定義,可以寫出單軌跡蒸餾損失函數(shù)的表達(dá)式如下:
為降低蒸餾誤差,約束學(xué)生模型學(xué)習(xí)的時(shí)間步s接近教師步t:
其中γ表示控制目標(biāo)時(shí)間步s的取值下限比例因子通過縮短t與s的距離,可以減小誤差上界,同時(shí)保留隨機(jī)性提升模型性能。
【軌跡狀態(tài)庫】
【非對稱對抗損失】
其中F表示DINO-v2模型,D_ψ表示判別器,ψ表示判別器的可學(xué)習(xí)參數(shù),x_r指對x_0加噪r步后獲得的樣本。
實(shí)驗(yàn)結(jié)果
訓(xùn)練集:Open-Sora-Plan-v1.0.0測試集:wikiArt(10張)+COCO(100張)+自定義100張圖像/12個(gè)視頻及15種風(fēng)格圖像的測試集評估指標(biāo):風(fēng)格相似度(CSD)、LAION美學(xué)評分和時(shí)間一致性(WarpingError)指標(biāo)對比方法:LCM/TCD/PCM/TDD/Hyper-SD/SDXL-Lightning/MCM
【對比實(shí)驗(yàn)】
STD與當(dāng)前多種加速方法在8步、6步、4步下進(jìn)行對比,在風(fēng)格相似性和美學(xué)分?jǐn)?shù)上達(dá)到SOTA水平。其中圖像生成在NFE=8時(shí)CSD分?jǐn)?shù)比Hyper-SD提升↑0.032;視頻生成的WarpingError達(dá)到0.166,顯著優(yōu)于MCM的0.257。從可視化(圖4)中可以看出STD方法的風(fēng)格質(zhì)量和圖像質(zhì)量顯著更高;在不同CFG的定量指標(biāo)折線圖中(圖5)也表現(xiàn)出了更優(yōu)水平。
視頻效果:
【消融實(shí)驗(yàn)】
文章對單軌跡蒸餾方法、軌跡狀態(tài)庫以及非對稱對抗損失函數(shù)做了消融實(shí)驗(yàn)(表2),當(dāng)使用軌跡狀態(tài)庫時(shí),抵消了STD帶來的額外3.8倍訓(xùn)練耗時(shí),而STD方法和非對稱對抗損失函數(shù)都顯著提升了風(fēng)格相似性分以及美學(xué)分。
其他重要參數(shù)的取值和特性消融實(shí)驗(yàn):
STD和非對稱對抗損失強(qiáng)度(Fig6):強(qiáng)度越大,細(xì)節(jié)和噪點(diǎn)越少,對比度越強(qiáng),畫質(zhì)越好。
不同的噪聲起點(diǎn)(Fig8):η越大,風(fēng)格化程度越大,但是內(nèi)容相關(guān)性越弱。
不同的目標(biāo)時(shí)間步s的取值下限比例因子(Fig10):更大的γ值帶來更低噪聲,更強(qiáng)的非對稱對抗損失產(chǎn)生更高對比度;γ=0.7在風(fēng)格保持與細(xì)節(jié)呈現(xiàn)間取得最佳平衡。
非對稱對抗損失目標(biāo)時(shí)間步位置(Table3、Fig9):當(dāng)r
【可擴(kuò)展性試驗(yàn)】
文章進(jìn)一步討論了STD方法的適用范圍,從STD的理論推導(dǎo)上看,該方法可用于其他任何“基于部分噪聲的圖像/視頻編輯”任務(wù),如inpainting等。為了驗(yàn)證猜想,文章展示了一組使用STD和其他加速方法用于inpainting的對比圖。如圖7,相比LCM和TCD方法,STD的inpainting效果更加自然。
結(jié)語
文章針對基于一致性模型的圖像視頻風(fēng)格遷移加速方法,重點(diǎn)優(yōu)化了風(fēng)格相似性與美學(xué)質(zhì)量。研究發(fā)現(xiàn)前向SDE軌跡中不同噪聲強(qiáng)度會(huì)導(dǎo)致PF-ODE軌跡產(chǎn)生差異,據(jù)此提出基于特定噪聲強(qiáng)度的單軌跡蒸餾方法(STD),有效解決了訓(xùn)練與推理軌跡不對齊問題。為降低STD方法的訓(xùn)練成本,創(chuàng)新性引入軌跡庫機(jī)制,并采用非對稱對抗損失提升生成質(zhì)量。對比實(shí)驗(yàn)驗(yàn)證了本方法在風(fēng)格保持與美學(xué)表現(xiàn)上的優(yōu)越性,系統(tǒng)消融實(shí)驗(yàn)證實(shí)了各模塊的有效性。該方法可擴(kuò)展至部分噪聲編輯任務(wù),文章已探索了基于STD的圖像修復(fù)應(yīng)用,為后續(xù)相關(guān)工作提供新思路。
《錦桐》作者:閑聽落花 重生 打臉虐渣文 蘇爽向
在那命運(yùn)的輪回之輪悄然轉(zhuǎn)動(dòng)下,女主與昔日負(fù)心郎意外共赴重生之旅,時(shí)光回溯至他們成親后的首月晨曦|。前世,她以滿腔癡情織就綺夢,卻換來他無盡的冷漠與嫌棄,終在絕望的深淵中香消玉殞。而今,命運(yùn)賦予她重來的機(jī)會(huì),女主宛若鳳凰涅槃,以智謀為翼,步步精心布局,誓要與那渣男分道揚(yáng)鑣,掙脫情感的枷鎖,重獲自由之身。掙脫束縛的女主,仿佛破繭 繼《錦桐》后,大神閑聽落花再出王炸,穩(wěn)坐古言榜首無人超越一、《吾家阿囡》作者:閑聽落花機(jī)靈學(xué)霸女主vs腹黑世子爺男主,女主穿越,男主重生,發(fā)家致富,男強(qiáng)女強(qiáng),女主是現(xiàn)代女學(xué)霸,一朝穿越,卻身陷古代“地獄模式”-——。父母雙亡后,她與三個(gè)姐姐、一個(gè)哥哥相依為命,飽受鄰里欺凌。為改變困境,面對資質(zhì)平等會(huì)說_-。《錦桐》《盛華》《花開春暖》……哪部才是閑聽落花巔峰之作?