當(dāng)整個(gè)AI視覺(jué)生成領(lǐng)域都在Transformer架構(gòu)上「卷生卷死」時(shí),一項(xiàng)來(lái)自北大、北郵和華為的最新研究卻反其道而行之,重新審視了深度學(xué)習(xí)中最基礎(chǔ)、最經(jīng)典的模塊——3x3卷積。
他們提出的DiC(DiffusionCNN),一個(gè)純卷積的擴(kuò)散模型,不僅在性能上超越了廣受歡迎的DiffusionTransformer(DiT),更在推理速度上實(shí)現(xiàn)了驚人的提升。這項(xiàng)工作證明了,經(jīng)過(guò)精心設(shè)計(jì),簡(jiǎn)單的卷積網(wǎng)絡(luò)依然能在生成任務(wù)中登峰造極。
論文標(biāo)題:DiC:RethinkingConv3x3DesignsinDiffusionModels
論文鏈接:https://arxiv.org/abs/2501.00603
項(xiàng)目主頁(yè)/代碼:https://github.com/YuchuanTian/DiC
引言
從StableDiffusion到Sora,基于Transformer的擴(kuò)散模型已經(jīng)成為AIGC領(lǐng)域的絕對(duì)主流。它們強(qiáng)大的可擴(kuò)展性和卓越的生成效果令人驚嘆,但也帶來(lái)了巨大的計(jì)算開(kāi)銷(xiāo)和緩慢的推理速度,成為實(shí)際應(yīng)用中的一大瓶頸。
我們真的只能在Transformer這條路上走到底嗎?
在這篇論文中,研究者們給出了一個(gè)響亮的否定答案。他們大膽地拋棄了復(fù)雜的自注意力機(jī)制,回歸到了最純粹的3x3卷積,并構(gòu)建了一個(gè)兼具速度與性能的全新擴(kuò)散模型架構(gòu)——DiC。
返璞歸真:為什么選擇3x3卷積
在AI硬件和深度學(xué)習(xí)框架(如cuDNN)的加持下,3x3卷積是硬件支持最好、優(yōu)化最徹底的算子之一。得益于像Winograd這樣的高效算法,它的計(jì)算速度遠(yuǎn)超其他類(lèi)型的操作,是實(shí)現(xiàn)高吞吐量的關(guān)鍵。
然而,3x3卷積也存在一個(gè)致命弱點(diǎn):感受野受限。這使得它在需要全局信息的生成任務(wù)中,天然弱于擁有全局感受野的Transformer。之前的工作大多認(rèn)為,Transformer中的自注意力機(jī)制是大型生成模型ScalingLaw的關(guān)鍵。
DiC的作者們正是要挑戰(zhàn)這一「常識(shí)」。
DiC的基本模塊主要由兩個(gè)Conv3x3組成
DiC的進(jìn)化之路:從平庸到卓越
研究者們并非簡(jiǎn)單地堆疊卷積層。他們通過(guò)一系列精巧的設(shè)計(jì),一步步將一個(gè)平庸的卷積網(wǎng)絡(luò)打造成了性能怪獸。這個(gè)過(guò)程清晰地展現(xiàn)在了論文的路線(xiàn)圖(Roadmap)中:
架構(gòu)選擇:U-NetHourglass是關(guān)鍵
研究發(fā)現(xiàn),對(duì)于純卷積模型,傳統(tǒng)的U-Net沙漏型架構(gòu)比Transformer中流行的直筒形Transformer堆疊架構(gòu)更有效。通過(guò)編碼器中的下采樣和解碼器中的上采樣,模型可以在更高層級(jí)用同樣的3x3卷積核覆蓋更廣的原始圖像區(qū)域,從而有效彌補(bǔ)了感受野不足的問(wèn)題。在此基礎(chǔ)上,DiC減少了跳連的頻率,降低了U-Net頻繁跳連帶來(lái)的計(jì)算冗余。
全方位的條件注入
優(yōu)化為了讓模型更精準(zhǔn)地響應(yīng)條件(如類(lèi)別、文本等),DiC進(jìn)行了一套精密的「三連擊」優(yōu)化。首先,它采用分階段嵌入(Stage-SpecificEmbeddings),為U-Net不同層級(jí)的特征提供專(zhuān)屬的、維度匹配的條件嵌入。其次,通過(guò)實(shí)驗(yàn)確定了最佳的注入位置,讓條件信息在卷積塊的中間層介入,以最高效地調(diào)制特征。最后,DiC引入了條件門(mén)控(ConditionalGating)機(jī)制*,通過(guò)動(dòng)態(tài)縮放特征圖,實(shí)現(xiàn)了對(duì)生成過(guò)程更精細(xì)的控制。這套組合拳確保了條件信息被恰到好處地利用,極大地提升了模型的生成質(zhì)量。
激活函數(shù)替換
將常用的SiLU替換為GELU,帶來(lái)了一定的效果提升。
驚人的實(shí)驗(yàn)結(jié)果:性能與速度雙豐收
超越DiT,性能更優(yōu)
在同等計(jì)算量(FLOPs)和參數(shù)規(guī)模下,DiC在各個(gè)尺寸上都顯著優(yōu)于DiT。以XL尺寸為例,DiC-XL的FID分?jǐn)?shù)(越低越好)從DiT-XL/2的20降低到了13,IS分?jǐn)?shù)(越高越好)也大幅提升,生成圖像的質(zhì)量和多樣性都更勝一籌。
DiC生成能力的超越已經(jīng)足夠亮眼,而速度的優(yōu)勢(shì)則更具顛覆性。由于純卷積架構(gòu)對(duì)硬件的高度友好,DiC的推理吞吐量(Throughput)遠(yuǎn)超同級(jí)別的Transformer模型。例如,在相同模型參數(shù)量和算力的情況下,DiC-XL的吞吐量達(dá)到了313.7,是DiT-XL/2(66.8)的近5倍!
ScalingLaw上的探索
研究者們積極探索DiC圖像生成能力的上限,發(fā)現(xiàn)模型收斂速度快。當(dāng)不使用cfg時(shí),在相同設(shè)定下DiC的收斂速度是DiT的十倍;在使用cfg時(shí),F(xiàn)ID可以達(dá)到2.25。
DiC生成效果出眾,輸出圖像十分逼真
大圖上的探索
當(dāng)生成圖像尺寸擴(kuò)大時(shí),Transformer的二次方復(fù)雜度問(wèn)題會(huì)急劇惡化。而DiC的線(xiàn)性復(fù)雜度使其優(yōu)勢(shì)更加突出。實(shí)驗(yàn)表明,在512x512分辨率下,DiC-XL模型可以用比DiT-XL/2更少的計(jì)算量,遠(yuǎn)超后者的速度,達(dá)到更好的生成效果。
結(jié)論與展望
DiC的出現(xiàn),有力地挑戰(zhàn)了「生成模型必須依賴(lài)自注意力」的固有觀念。它向我們展示了,通過(guò)深入的理解和精巧的架構(gòu)設(shè)計(jì),簡(jiǎn)單、高效的卷積網(wǎng)絡(luò)依然可以構(gòu)建強(qiáng)大的生成模型。卷積,在視覺(jué)AIGC的廣闊天地中仍然大有可為!
論文已被CVPR2025接收,更多內(nèi)容,請(qǐng)參考原論文。
蘇夢(mèng)夢(mèng)成為了古早文的打工人 阻止男主黑化, 把充滿(mǎn)圣潔光輝的男主交到女主手中 系統(tǒng) 危險(xiǎn)快上, 保護(hù)他! 我一個(gè)嬌弱女子為何要承受這些! 師弟, 危險(xiǎn)讓我來(lái)! 住手! 師弟來(lái)我身后裴寂點(diǎn)頭站至人的身后 這大男人搶他們東西還裝無(wú)辜! 系統(tǒng): 寶物! 暈倒讓他撿好家伙, 打工都是人上人靈藥, 武器, 寶物師弟都給你, 你好師姐就好! 兩大宗門(mén)和親, 夢(mèng)夢(mèng)的親事先辦, 裴寂的后辦! 他將她抵在房門(mén)中, 雙目猩紅, 她竟然要嫁于他人! 師姐你真的要先成親 系統(tǒng): 快說(shuō)你延后讓他先成婚! 我覺(jué)得他生氣的不是這個(gè) 快說(shuō)! 蘇夢(mèng)夢(mèng)硬著頭皮, 師弟, 要不讓你先我延后? 裴寂冷笑著, 那便同一天成婚吧! 雙喜臨門(mén)歡笑聲一片, 蘇夢(mèng)夢(mèng)的紅蓋頭被人揭開(kāi), 怎么是, 是你? 裴寂施咒把人禁錮住, “ 師姐, 好巧??! ” 系統(tǒng)! 系統(tǒng)人呢? ! 排雷: 女主偽白蓮, 背地下手奪寶劫財(cái), 好處不到位, 干啥都是廢! 男主假正派, 披著羊皮是條狼, 所謂的感化扶正都是假象延伸閱讀:與 北郵華為(開(kāi)源純卷)積DiC 3x3卷積實(shí)現(xiàn)SOTA性能比Di:T快、5倍 的相關(guān)文章