論文作者團(tuán)隊(duì)簡介:本文第一作者周鑫,共同第一作者梁定康,均為華中科技大學(xué)博士生,導(dǎo)師為白翔教授。合作者包括華中科技大學(xué)陳楷錦、馮天瑞、林鴻凱,曠視科技陳習(xí)武、丁宜康、譚飛楊和香港大學(xué)趙恒爽助理教授。
在HunyuanVideo上,EasyCache在復(fù)雜場景下保持與原視頻的一致外觀,同時顯著加速
1.研究背景與動機(jī)
近年來,隨著擴(kuò)散模型(DiffusionModels)和擴(kuò)散Transformer(DiT)在視頻生成領(lǐng)域的廣泛應(yīng)用,AI合成視頻的質(zhì)量和連貫性有了飛躍式提升。像OpenAISora、HunyuanVideo、Wan2.1等大模型,已經(jīng)能夠生成結(jié)構(gòu)清晰、細(xì)節(jié)豐富且高度連貫的長視頻內(nèi)容,為數(shù)字內(nèi)容創(chuàng)作、虛擬世界和多媒體娛樂帶來了巨大變革。
但與此同時,推理慢、算力消耗高的問題也日益突出。以HunyuanVideo為例,生成一個5秒、720P分辨率的視頻,單次推理在單張H20上需要2小時。這種高昂的資源代價,極大限制了擴(kuò)散視頻生成技術(shù)在實(shí)時互動、移動端和大規(guī)模生產(chǎn)場景的應(yīng)用落地。
造成這一瓶頸的核心原因,是擴(kuò)散模型在生成過程中需要多次迭代去噪,每一步都要進(jìn)行完整的神經(jīng)網(wǎng)絡(luò)前向推理,導(dǎo)致大量冗余計(jì)算。如何在不影響視頻質(zhì)量的前提下,大幅提升推理效率,成為亟需突破的難點(diǎn)。
論文標(biāo)題:
LessisEnough:Training-FreeVideoDiffusionAccelerationviaRuntime-AdaptiveCaching
論文地址:
https://arxiv.org/abs/2507.02860
代碼地址(已開源):
https://github.com/H-EmbodVis/EasyCache
項(xiàng)目主頁:
https://h-embodvis.github.io/EasyCache/
2.方法創(chuàng)新:EasyCache的設(shè)計(jì)與原理
本論文提出的EasyCache,是一種無需訓(xùn)練、無需模型結(jié)構(gòu)改動、無需離線統(tǒng)計(jì)的推理加速新框架。它的核心思想非常直接:在推理過程中,動態(tài)檢測模型輸出的「穩(wěn)定期」,復(fù)用歷史計(jì)算結(jié)果以減少冗余推理步驟。
2.1擴(kuò)散過程的「變換速率」規(guī)律
擴(kuò)散模型的生成過程可以理解為「逐步去噪」:每一步都從當(dāng)前潛變量出發(fā),預(yù)測噪聲并更新狀態(tài),逐漸還原出清晰的視頻內(nèi)容。將一個step內(nèi)的全部DiTblocks看做一個函數(shù),可以考慮某個step的「方向?qū)?shù)」的一階近似:
為了便于分析,將其求均值和范數(shù)以簡化為數(shù)值(變換速率,Transformationrate):
通過對擴(kuò)散Transformer的內(nèi)部特征分析,發(fā)現(xiàn):
在去噪初期,模型輸出變化劇烈,可能需要完整推理以捕捉全局結(jié)構(gòu);
但在中后期,模型的「變換速率」趨于穩(wěn)定,行為近似線性,細(xì)節(jié)微調(diào)為主。
這種「穩(wěn)定性」意味著,許多步驟的輸出可以用之前某一步的結(jié)果做近似,大量冗余計(jì)算可以被跳過。
2.2EasyCache的自適應(yīng)緩存機(jī)制
EasyCache的具體實(shí)現(xiàn)流程如下:
(1)變換速率度量
定義每一步的「變換速率」
,用于衡量當(dāng)前輸出對輸入的敏感度。我們驚訝地發(fā)現(xiàn),盡管整個模型的輸入輸出在時間步層面變化劇烈且呈現(xiàn)不同的變化模式,Kt在去噪后期卻能保持相對穩(wěn)定。
(2)自適應(yīng)判據(jù)與緩存復(fù)用
設(shè)定累計(jì)誤差閾值,動態(tài)累計(jì)每步的輸出變化率(誤差指標(biāo)Et)。具體而言,假定Kt在局部為常數(shù),可以通過下一個step的輸入變化與Kt一起協(xié)同判斷輸出的變化率(局部穩(wěn)定性判斷),將預(yù)估的輸出變化率累加可以作為累計(jì)誤差估計(jì)。
只要Et低于τ,就直接復(fù)用上一次完整推理的變換向量,否則重新計(jì)算并刷新緩存。
前R步為warm-up,全部完整推理,確保初期結(jié)構(gòu)信息不丟失。
(3)無需訓(xùn)練與模型改動
EasyCache完全在推理階段生效,不需要模型重訓(xùn)練,也不需修改原有網(wǎng)絡(luò)結(jié)構(gòu),可以做到「即插即用」。
3.實(shí)驗(yàn)結(jié)果與可視化分析
論文在OpenSora、Wan2.1、HunyuanVideo等多個主流視頻生成模型上進(jìn)行了系統(tǒng)實(shí)驗(yàn),考察了推理速度與生成質(zhì)量的平衡。
3.1定量實(shí)驗(yàn)結(jié)果
EasyCache在HunyuanVideo上實(shí)現(xiàn)2.2倍加速,PSNR提升36%,SSIM提升14%,LPIPS大幅下降,視頻質(zhì)量幾乎無損。在Wan2.1上也取得了超過2倍的加速比。
在圖像生成任務(wù)(如FLUX.1-dev)同樣可帶來4.6倍加速,并提升FID等指標(biāo)。
EasyCache與SVG等稀疏注意力技術(shù)可疊加,平均可達(dá)3.3倍加速,總體推理時長從2小時縮短到33分鐘。
3.2可視化對比
論文展示了不同方法生成的視頻幀對比:
靜態(tài)緩存和TeaCache等方法在細(xì)節(jié)、結(jié)構(gòu)和清晰度上均有不同程度損失;
EasyCache生成的視頻在視覺效果上與原始模型幾乎一致,細(xì)節(jié)保留優(yōu)秀,且無明顯模糊或結(jié)構(gòu)錯亂。更多可視化請見:https://h-embodvis.github.io/EasyCache/
在Wan2.1-14B上,EasyCache成功地保留了文字
EasyCache能夠在SVG的基礎(chǔ)上進(jìn)一步將加速倍數(shù)提高到三倍以上
4.總結(jié)與未來展望
EasyCache為視頻擴(kuò)散模型的推理加速提供了一種極簡、高效、訓(xùn)練無關(guān)的新范式。它通過深入挖掘擴(kuò)散過程的內(nèi)在規(guī)律,實(shí)現(xiàn)了大幅提速且?guī)缀鯚o損的高質(zhì)量視頻生成,為擴(kuò)散模型在實(shí)際應(yīng)用中的落地提供了堅(jiān)實(shí)基礎(chǔ)。未來,隨著模型和有關(guān)加速技術(shù)的持續(xù)提升,我們期望能進(jìn)一步逼近「實(shí)時視頻生成」的目標(biāo)。
文中視頻鏈接:https://mp.weixin.qq.com/s/25Q7n0ufpwj972xdC-vGcw
力推4本玄幻小說,文筆在線,老書蟲都看得不亦樂乎
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。