本文第一作者操雨康,南洋理工大學(xué)MMLab博士后,研究方向是3D/4D重建與生成,人體動(dòng)作/視頻生成,以及圖像生成與編輯。
本文共同第一作者司晨陽(yáng),南京大學(xué)助理教授,研究方向是圖像/視頻生成,以及生成模型的優(yōu)化和加速。
在圖像處理領(lǐng)域,「圖像morphing」(圖像變形)是一項(xiàng)常見(jiàn)又充滿(mǎn)創(chuàng)意的任務(wù)——它可以讓兩張風(fēng)格迥異的圖片平滑過(guò)渡、自然融合,從而生成令人驚艷的中間圖像。你可能在動(dòng)畫(huà)、電影特效或照片編輯中見(jiàn)過(guò)它的身影。
過(guò)去,這項(xiàng)技術(shù)往往依賴(lài)于復(fù)雜的圖像對(duì)齊算法和顏色插值規(guī)則,難以應(yīng)對(duì)復(fù)雜紋理和多樣語(yǔ)義的圖像變化。近年來(lái),雖然GAN、VAE等深度學(xué)習(xí)方法取得了顯著進(jìn)步,但它們?nèi)匀幻媾R訓(xùn)練成本高、數(shù)據(jù)依賴(lài)強(qiáng)、反演不穩(wěn)定等問(wèn)題——尤其在真實(shí)世界圖像中表現(xiàn)并不穩(wěn)定。
為了實(shí)現(xiàn)高質(zhì)量的圖像morphing,研究者們先后嘗試了從圖像warping到顏色插值,從GAN到VAE,甚至使用了StableDiffusion和CLIP等大模型。然而,即使在最先進(jìn)的方案中,訓(xùn)練成本高、適應(yīng)性差依舊是難以回避的難題。
那么,是否可能完全拋開(kāi)訓(xùn)練?不再依賴(lài)預(yù)訓(xùn)練模型或額外標(biāo)注?只用兩張圖像,就能高效、自然地完成morphing?為了解決這一挑戰(zhàn),來(lái)自南洋理工大學(xué)S-Lab、南京大學(xué)以及香港中文大學(xué)的研究團(tuán)隊(duì)提出了一種全新的方法——FreeMorph。該方法不僅實(shí)現(xiàn)了無(wú)需訓(xùn)練、一步到位的圖像morphing效果,還能在擁有不同語(yǔ)義與布局的圖像之間,生成流暢自然的過(guò)渡過(guò)程,為training-free圖像morphing打開(kāi)了全新的可能性。
想深入了解FreeMorph的技術(shù)細(xì)節(jié)?我們已經(jīng)為你準(zhǔn)備好了完整的論文、項(xiàng)目主頁(yè)和代碼倉(cāng)庫(kù)!
引言
近年來(lái),隨著大規(guī)模文本-圖像數(shù)據(jù)集的普及,視覺(jué)-語(yǔ)言模型(如Chameleon)、擴(kuò)散模型(如StableDiffusion)以及transformer架構(gòu)(如PixArt-α,FLUX)在從文本提示生成高質(zhì)量圖像方面展現(xiàn)出了驚人的能力。這些技術(shù)進(jìn)步也為生成式圖像變形(imagemorphing)方法的革新奠定了基礎(chǔ)。Wang&Golland[1]利用基于CLIP的文本嵌入的局部線(xiàn)性特性,通過(guò)潛在圖像特征的插值來(lái)實(shí)現(xiàn)平滑過(guò)渡。在此基礎(chǔ)上,IMPUS[2]引入了一個(gè)多階段訓(xùn)練框架,包括文本嵌入的優(yōu)化與LoRA模塊的訓(xùn)練,以更好地捕捉語(yǔ)義。盡管該方法在視覺(jué)效果上更為出色,但每個(gè)案例需約30分鐘的訓(xùn)練時(shí)間。DiffMorpher[3]則通過(guò)插值latentnoise,并引入自適應(yīng)實(shí)例歸一化(AdaIN)以提升性能。然而,這些方法在處理語(yǔ)義多樣、布局復(fù)雜的圖像時(shí)仍顯力不從心,限制了其實(shí)用性。
針對(duì)這些問(wèn)題,我們的目標(biāo)是實(shí)現(xiàn)無(wú)需調(diào)參和訓(xùn)練的圖像變形。但是,這一目標(biāo)也帶來(lái)了兩個(gè)關(guān)鍵挑戰(zhàn):
1)圖像變形過(guò)程中的特征丟失:通常來(lái)講,面對(duì)這一問(wèn)題,大家的第一反應(yīng)會(huì)是把輸入圖像先轉(zhuǎn)化為預(yù)訓(xùn)練擴(kuò)散模型的潛在特征,然后再通過(guò)球面插值來(lái)實(shí)現(xiàn)圖像變形。然而,這一方法看似直接,但diffusion擴(kuò)散模型的多步去噪的非線(xiàn)性過(guò)程會(huì)導(dǎo)致生成的中間變形圖片不連續(xù)。同時(shí),diffusion擴(kuò)散模型自身的預(yù)訓(xùn)練特征也容易造成身份信息丟失;
2)難以實(shí)現(xiàn)連貫過(guò)渡:diffusion擴(kuò)散模型本身并不具備明確的“變化趨勢(shì)”,這使得實(shí)現(xiàn)平滑、連貫的變形序列仍需額外機(jī)制支持。
為了解決這兩個(gè)問(wèn)題,F(xiàn)reeMorph通過(guò)改善diffusion擴(kuò)散模型中的注意力attention機(jī)制,以實(shí)現(xiàn)無(wú)需訓(xùn)練的圖像變形方法:
1)引導(dǎo)感知的球面插值:我們首先通過(guò)修改預(yù)訓(xùn)練擴(kuò)散模型的自注意力模塊self-attention,融入輸入圖像的顯式引導(dǎo)來(lái)增強(qiáng)模型。這是通過(guò)球面插值實(shí)現(xiàn)的,它產(chǎn)生中間特征并用于兩個(gè)關(guān)鍵方面:首先,我們進(jìn)行球面特征聚合,以融合自注意力模塊的Key和Value特征,確保整個(gè)生成圖像序列的過(guò)渡一致性。其次,為解決身份信息丟失問(wèn)題,我們引入了先驗(yàn)引導(dǎo)的自注意力機(jī)制,該機(jī)制融入輸入圖像的顯式引導(dǎo),以保留其獨(dú)特身份特征。
2)面向步驟的變化趨勢(shì):為實(shí)現(xiàn)絲滑的過(guò)渡,我們提出了一種新穎的步驟導(dǎo)向的變化趨勢(shì)方法。該方法融合了分別源自?xún)蓚€(gè)輸入圖像的兩個(gè)自注意力模塊,實(shí)現(xiàn)了一種受控且一致的過(guò)渡,同時(shí)尊重兩個(gè)輸入。為進(jìn)一步提升生成圖像序列的質(zhì)量,我們?cè)O(shè)計(jì)了一種改進(jìn)的反向去噪和正向擴(kuò)散過(guò)程,將這些創(chuàng)新組件無(wú)縫集成到原始的DDIM框架中。
為全面評(píng)估FreeMorph并與現(xiàn)有方法進(jìn)行基準(zhǔn)測(cè)試,我們專(zhuān)門(mén)收集了一個(gè)新的評(píng)估數(shù)據(jù)集。該數(shù)據(jù)集包含四組不同類(lèi)別的圖像對(duì),這些類(lèi)別根據(jù)圖像的語(yǔ)義相似性和布局相似性進(jìn)行劃分。
FreeMorph:無(wú)需訓(xùn)練的圖像變形框架
給定兩張輸入圖像,我們首先提出兩個(gè)模塊:(1)引導(dǎo)感知的球面插值和(2)步驟導(dǎo)向的變化趨勢(shì),以增強(qiáng)定向性(保持身份特征的能力)和一致性(平滑過(guò)渡)。此外,我們注意到,在去噪步驟中簡(jiǎn)單應(yīng)用這兩個(gè)模塊中的任何一個(gè),效果都不夠理想。因此,我們針對(duì)正向擴(kuò)散和反向去噪過(guò)程開(kāi)發(fā)了一種改進(jìn)的方法,如上述算法所示。
引導(dǎo)感知的球面插值
現(xiàn)有的圖像漸變方法[25,47,49]通常需要為每張輸入圖像訓(xùn)練低秩適應(yīng)(LoRA)模塊,以增強(qiáng)語(yǔ)義理解并實(shí)現(xiàn)平滑過(guò)渡。然而,這種方法通常效率低下且耗時(shí),并且難以處理語(yǔ)義或布局不同的圖像。
1.多步去噪過(guò)程高度非線(xiàn)性,導(dǎo)致生成的圖像序列不連續(xù);
2.缺乏顯式引導(dǎo)來(lái)控制去噪過(guò)程,使得模型繼承了預(yù)訓(xùn)練擴(kuò)散模型本身的偏見(jiàn)。
具體操作如下:
在去噪步驟t中:
先驗(yàn)驅(qū)動(dòng)的自注意力機(jī)制(Prior-drivenSelf-attentionMechanism):雖然我們的球面特征融合技術(shù)顯著改善了圖像漸變中的身份信息保持度,但我們發(fā)現(xiàn),在前向擴(kuò)散和反向去噪階段統(tǒng)一使用這種方法,會(huì)導(dǎo)致生成的圖像序列變化極小,無(wú)法準(zhǔn)確代表輸入圖像。這個(gè)結(jié)果是預(yù)料之中的,因?yàn)闈撛谠肼晻?huì)對(duì)反向去噪過(guò)程產(chǎn)生重大影響(如下圖所示)。因此,應(yīng)用上述公式中描述的特征融合會(huì)引入模糊性——來(lái)自輸入圖像的一致且強(qiáng)大的約束,使得每個(gè)中間潛在噪聲i都顯得非常相似,從而限制了過(guò)渡的有效性。
為解決這一問(wèn)題,我們進(jìn)一步提出了一種先驗(yàn)驅(qū)動(dòng)的自注意力機(jī)制。該機(jī)制優(yōu)先考慮來(lái)自球面插值的潛在特征,以確保潛在噪聲空間內(nèi)的平滑過(guò)渡;同時(shí),在后續(xù)階段強(qiáng)調(diào)輸入圖像以維持身份信息。具體策略為:
在反向去噪階段:我們繼續(xù)使用公式5描述的方法(融合左右圖像特征)。
在前向擴(kuò)散步驟:我們采用一種不同的注意力機(jī)制,通過(guò)修改自注意力模塊來(lái)實(shí)現(xiàn):
整體前向擴(kuò)散和反向去噪過(guò)程:
高頻高斯噪聲注入(High-frequencygaussiannoiseinjection):如前所述,F(xiàn)reeMorph在前向擴(kuò)散和反向去噪階段都融合了左右圖像的特征。然而,我們觀(guān)察到,這有時(shí)會(huì)給生成過(guò)程施加過(guò)于嚴(yán)格的約束。為緩解此問(wèn)題并允許更大的靈活性,我們提出在前向擴(kuò)散步驟后,向潛在向量z的高頻域注入高斯噪聲:
整體流程(Overallprocess):為提升圖像漸變效果,我們發(fā)現(xiàn)在所有去噪步驟中統(tǒng)一應(yīng)用引導(dǎo)感知球面插值或步驟導(dǎo)向的變化趨勢(shì)會(huì)導(dǎo)致次優(yōu)結(jié)果。
為此,我們?yōu)榍跋驍U(kuò)散和反向去噪過(guò)程開(kāi)發(fā)了一種精細(xì)化方案:
前向擴(kuò)散:
反向去噪:
實(shí)驗(yàn)
實(shí)驗(yàn)結(jié)果:在下圖中,我們展示了FreeMorph生成的效果,這些結(jié)果充分證明了其生成高質(zhì)量平滑過(guò)渡的能力。FreeMorph在多樣化場(chǎng)景中表現(xiàn)卓越:既能處理不同語(yǔ)義與布局的圖像,也能駕馭具有相似特征的畫(huà)面。同時(shí),該方法還能有效捕捉細(xì)微變化——無(wú)論是不同顏色的蛋糕,還是人物表情的微妙差異,均能精準(zhǔn)呈現(xiàn)。
與其他圖像變形方法的對(duì)比:下圖中,我們提供了與現(xiàn)有圖像變形方法的定性對(duì)比。有效的圖像變形結(jié)果應(yīng)當(dāng)呈現(xiàn)從源圖像(左)到目標(biāo)圖像(右)的漸進(jìn)式過(guò)渡,同時(shí)保持原始身份特征。基于此標(biāo)準(zhǔn)可得出以下觀(guān)察:
1.處理語(yǔ)義與布局差異較大的圖像時(shí),IMPUS[2]存在身份特征丟失及過(guò)渡不平滑問(wèn)題。如下圖第二案例所示:(i)第三張生成圖像偏離原始身份特征;(ii)第三與第四生成圖像間出現(xiàn)突變;
2.盡管Diffmorpher[3]比IMPUS實(shí)現(xiàn)了更平滑的過(guò)渡,但其結(jié)果常存在模糊且整體質(zhì)量較低(見(jiàn)下圖第一個(gè)案例);
3.基本方法"Slerp"(僅采用球面插值與DDIM過(guò)程)存在三大缺陷:(i)因缺乏顯式引導(dǎo)而難以準(zhǔn)確解析輸入圖像,(ii)圖像質(zhì)量欠佳,(iii)過(guò)渡突變。相比之下,本方法始終展現(xiàn)優(yōu)越性能,其平滑過(guò)渡特性與高清畫(huà)質(zhì)優(yōu)勢(shì)顯著。
總結(jié)
本文提出FreeMorph,一種無(wú)需調(diào)參的新型流程,可在30秒內(nèi)為兩張輸入圖像生成高質(zhì)量平滑過(guò)渡。具體而言,本方法創(chuàng)新性地通過(guò)修改自注意力模塊引入顯式圖像引導(dǎo),其核心技術(shù)包含兩大創(chuàng)新組件:球面特征聚合機(jī)制與先驗(yàn)驅(qū)動(dòng)自注意力機(jī)制。此外,我們提出步驟導(dǎo)向的定向變分趨勢(shì),確保過(guò)渡方向與輸入圖像嚴(yán)格一致。為將上述模塊融入原始DDIM框架,還專(zhuān)門(mén)設(shè)計(jì)了改進(jìn)型前向擴(kuò)散與反向去噪流程。大量實(shí)驗(yàn)表明,F(xiàn)reeMorph在多樣化場(chǎng)景中均能生成高保真結(jié)果,以明顯優(yōu)勢(shì)超越現(xiàn)有圖像變形技術(shù)。
局限性和失敗案例:盡管我們的方法達(dá)到了當(dāng)前的最先進(jìn)水平,但仍存在一些局限性。我們?cè)谙聢D中展示了若干失敗案例,具體包括:
1)當(dāng)處理語(yǔ)義或布局差異較大的圖像時(shí),雖然模型仍能生成一定程度上合理的結(jié)果,但過(guò)渡過(guò)程可能不夠平滑,存在突變現(xiàn)象;
2)由于我們的方法基于StableDiffusion,其固有的偏差也會(huì)被繼承,導(dǎo)致在處理涉及人體四肢等結(jié)構(gòu)時(shí),圖像過(guò)渡的準(zhǔn)確性受到影響。
參考文獻(xiàn)
[1]Interpolatingbetweenimageswithdiffusionmodels.ICMLworkshop2023.
[2]IMPUS:Imagemorphingwithperceptually-uniformsamplingusingdiffusionmodels.ICLR2023.
[3]Diffmorpher:Unleashingthecapabilityofdiffusionmodelsforimagemorphing.CVPR2024
勇者大冒險(xiǎn)第一季_第01集
勇者大冒險(xiǎn)第一季_第01集勇者大冒險(xiǎn)第一季勇者大冒險(xiǎn)第一季 勇者大冒險(xiǎn)第一季中國(guó)大陸動(dòng)畫(huà)懸疑奇幻冒險(xiǎn)國(guó)產(chǎn)動(dòng)漫類(lèi)型的影視作品,大四應(yīng)屆畢業(yè)生安巖(王梓配音)是一個(gè)平凡男孩,此時(shí)此刻他正為工作的事情而焦慮,當(dāng)然自視甚高的他時(shí)刻不改吐槽毒舌的本性-|。某天,安巖乘坐公交車(chē)去位于山中度假別墅的打工,誰(shuí)知途中上來(lái)三個(gè)神色詭異的男女,接著又有一個(gè)男子上車(chē)將安巖扔了下來(lái)。勇者大冒險(xiǎn)第一季_第03集