論文作者團(tuán)隊(duì)簡(jiǎn)介:本文第一作者周鑫,共同第一作者梁定康,均為華中科技大學(xué)博士生,導(dǎo)師為白翔教授。合作者包括華中科技大學(xué)陳楷錦、馮天瑞、林鴻凱,曠視科技陳習(xí)武、丁宜康、譚飛楊和香港大學(xué)趙恒爽助理教授。
在HunyuanVideo上,EasyCache在復(fù)雜場(chǎng)景下保持與原視頻的一致外觀,同時(shí)顯著加速
1.研究背景與動(dòng)機(jī)
近年來(lái),隨著擴(kuò)散模型(DiffusionModels)和擴(kuò)散Transformer(DiT)在視頻生成領(lǐng)域的廣泛應(yīng)用,AI合成視頻的質(zhì)量和連貫性有了飛躍式提升。像OpenAISora、HunyuanVideo、Wan2.1等大模型,已經(jīng)能夠生成結(jié)構(gòu)清晰、細(xì)節(jié)豐富且高度連貫的長(zhǎng)視頻內(nèi)容,為數(shù)字內(nèi)容創(chuàng)作、虛擬世界和多媒體娛樂(lè)帶來(lái)了巨大變革。
但與此同時(shí),推理慢、算力消耗高的問(wèn)題也日益突出。以HunyuanVideo為例,生成一個(gè)5秒、720P分辨率的視頻,單次推理在單張H20上需要2小時(shí)。這種高昂的資源代價(jià),極大限制了擴(kuò)散視頻生成技術(shù)在實(shí)時(shí)互動(dòng)、移動(dòng)端和大規(guī)模生產(chǎn)場(chǎng)景的應(yīng)用落地。
造成這一瓶頸的核心原因,是擴(kuò)散模型在生成過(guò)程中需要多次迭代去噪,每一步都要進(jìn)行完整的神經(jīng)網(wǎng)絡(luò)前向推理,導(dǎo)致大量冗余計(jì)算。如何在不影響視頻質(zhì)量的前提下,大幅提升推理效率,成為亟需突破的難點(diǎn)。
論文標(biāo)題:
LessisEnough:Training-FreeVideoDiffusionAccelerationviaRuntime-AdaptiveCaching
論文地址:
https://arxiv.org/abs/2507.02860
代碼地址(已開源):
https://github.com/H-EmbodVis/EasyCache
項(xiàng)目主頁(yè):
https://h-embodvis.github.io/EasyCache/
2.方法創(chuàng)新:EasyCache的設(shè)計(jì)與原理
本論文提出的EasyCache,是一種無(wú)需訓(xùn)練、無(wú)需模型結(jié)構(gòu)改動(dòng)、無(wú)需離線統(tǒng)計(jì)的推理加速新框架。它的核心思想非常直接:在推理過(guò)程中,動(dòng)態(tài)檢測(cè)模型輸出的「穩(wěn)定期」,復(fù)用歷史計(jì)算結(jié)果以減少冗余推理步驟。
2.1擴(kuò)散過(guò)程的「變換速率」規(guī)律
擴(kuò)散模型的生成過(guò)程可以理解為「逐步去噪」:每一步都從當(dāng)前潛變量出發(fā),預(yù)測(cè)噪聲并更新狀態(tài),逐漸還原出清晰的視頻內(nèi)容。將一個(gè)step內(nèi)的全部DiTblocks看做一個(gè)函數(shù),可以考慮某個(gè)step的「方向?qū)?shù)」的一階近似:
為了便于分析,將其求均值和范數(shù)以簡(jiǎn)化為數(shù)值(變換速率,Transformationrate):
通過(guò)對(duì)擴(kuò)散Transformer的內(nèi)部特征分析,發(fā)現(xiàn):
在去噪初期,模型輸出變化劇烈,可能需要完整推理以捕捉全局結(jié)構(gòu);
但在中后期,模型的「變換速率」趨于穩(wěn)定,行為近似線性,細(xì)節(jié)微調(diào)為主。
這種「穩(wěn)定性」意味著,許多步驟的輸出可以用之前某一步的結(jié)果做近似,大量冗余計(jì)算可以被跳過(guò)。
2.2EasyCache的自適應(yīng)緩存機(jī)制
EasyCache的具體實(shí)現(xiàn)流程如下:
(1)變換速率度量
定義每一步的「變換速率」
,用于衡量當(dāng)前輸出對(duì)輸入的敏感度。我們驚訝地發(fā)現(xiàn),盡管整個(gè)模型的輸入輸出在時(shí)間步層面變化劇烈且呈現(xiàn)不同的變化模式,Kt在去噪后期卻能保持相對(duì)穩(wěn)定。
(2)自適應(yīng)判據(jù)與緩存復(fù)用
設(shè)定累計(jì)誤差閾值,動(dòng)態(tài)累計(jì)每步的輸出變化率(誤差指標(biāo)Et)。具體而言,假定Kt在局部為常數(shù),可以通過(guò)下一個(gè)step的輸入變化與Kt一起協(xié)同判斷輸出的變化率(局部穩(wěn)定性判斷),將預(yù)估的輸出變化率累加可以作為累計(jì)誤差估計(jì)。
只要Et低于τ,就直接復(fù)用上一次完整推理的變換向量,否則重新計(jì)算并刷新緩存。
前R步為warm-up,全部完整推理,確保初期結(jié)構(gòu)信息不丟失。
(3)無(wú)需訓(xùn)練與模型改動(dòng)
EasyCache完全在推理階段生效,不需要模型重訓(xùn)練,也不需修改原有網(wǎng)絡(luò)結(jié)構(gòu),可以做到「即插即用」。
3.實(shí)驗(yàn)結(jié)果與可視化分析
論文在OpenSora、Wan2.1、HunyuanVideo等多個(gè)主流視頻生成模型上進(jìn)行了系統(tǒng)實(shí)驗(yàn),考察了推理速度與生成質(zhì)量的平衡。
3.1定量實(shí)驗(yàn)結(jié)果
EasyCache在HunyuanVideo上實(shí)現(xiàn)2.2倍加速,PSNR提升36%,SSIM提升14%,LPIPS大幅下降,視頻質(zhì)量幾乎無(wú)損。在Wan2.1上也取得了超過(guò)2倍的加速比。
在圖像生成任務(wù)(如FLUX.1-dev)同樣可帶來(lái)4.6倍加速,并提升FID等指標(biāo)。
EasyCache與SVG等稀疏注意力技術(shù)可疊加,平均可達(dá)3.3倍加速,總體推理時(shí)長(zhǎng)從2小時(shí)縮短到33分鐘。
3.2可視化對(duì)比
論文展示了不同方法生成的視頻幀對(duì)比:
靜態(tài)緩存和TeaCache等方法在細(xì)節(jié)、結(jié)構(gòu)和清晰度上均有不同程度損失;
EasyCache生成的視頻在視覺(jué)效果上與原始模型幾乎一致,細(xì)節(jié)保留優(yōu)秀,且無(wú)明顯模糊或結(jié)構(gòu)錯(cuò)亂。更多可視化請(qǐng)見(jiàn):https://h-embodvis.github.io/EasyCache/
在Wan2.1-14B上,EasyCache成功地保留了文字
EasyCache能夠在SVG的基礎(chǔ)上進(jìn)一步將加速倍數(shù)提高到三倍以上
4.總結(jié)與未來(lái)展望
EasyCache為視頻擴(kuò)散模型的推理加速提供了一種極簡(jiǎn)、高效、訓(xùn)練無(wú)關(guān)的新范式。它通過(guò)深入挖掘擴(kuò)散過(guò)程的內(nèi)在規(guī)律,實(shí)現(xiàn)了大幅提速且?guī)缀鯚o(wú)損的高質(zhì)量視頻生成,為擴(kuò)散模型在實(shí)際應(yīng)用中的落地提供了堅(jiān)實(shí)基礎(chǔ)。未來(lái),隨著模型和有關(guān)加速技術(shù)的持續(xù)提升,我們期望能進(jìn)一步逼近「實(shí)時(shí)視頻生成」的目標(biāo)。
文中視頻鏈接:https://mp.weixin.qq.com/s/25Q7n0ufpwj972xdC-vGcw
望著繁華的都市,不知道何去何從,生活不如意,女主迷茫了
第3. 《重生之好命》 作者:差差【簡(jiǎn)介導(dǎo)讀】:望著繁華的都市,不知道何去何從,生活不如意,失去活著的勇氣,一道閃電送回了97年,一次重新選擇的機(jī)會(huì),班花說(shuō)出令人心動(dòng)的話,?;ㄔ诳拷瑠^力一搏,絕不做一個(gè)無(wú)所事事的人。本故事純屬虛構(gòu),切勿對(duì)號(hào)【點(diǎn)擊下方免費(fèi)閱讀更多精彩內(nèi)容】【精彩搶先看】:劉到此結(jié)束了?。 太子如今只是個(gè)虛設(shè),朝堂上進(jìn)言也并無(wú)分量,而且據(jù)說(shuō)他自小體弱多病,太醫(yī)們斷言他活不過(guò)二十歲——_。如今他已經(jīng)年方十九,大限之日將至,嫡姐不想年紀(jì)輕輕就守寡,家里又得了皇帝的恩賜,給了一個(gè)太子妃之位,嫡姐便想到了我|。嫡姐平日里總是記掛著我,是個(gè)很好的姐姐,面對(duì)這種要求,我本不應(yīng)推辭。太子娶妻,整等我繼續(xù)說(shuō)。開始愛(ài)自己陸沉秦颯免費(fèi)小說(shuō)(陸沉秦颯)全文免費(fèi)閱讀無(wú)彈窗