本文第一作者白健弘,浙江大學(xué)26屆博士生,研究方向?yàn)橐曨l生成,目前正在尋找工業(yè)界全職崗位。
作為視頻拍攝愛好者,你是否曾因?yàn)樵O(shè)備限制無(wú)法完成想要實(shí)現(xiàn)的運(yùn)鏡效果?例如想要將鏡頭上移拍攝風(fēng)景的全貌,但沒有入手拍攝無(wú)人機(jī);又或是對(duì)拍攝素材很滿意,但拍攝時(shí)手抖影響了成片質(zhì)量。作為AI視頻創(chuàng)作者,是否對(duì)于生成視頻的內(nèi)容很滿意,然而運(yùn)鏡卻不盡人意?
為了解決以上問(wèn)題,可靈研究團(tuán)隊(duì)提出了一種可將輸入視頻沿新相機(jī)軌跡重新運(yùn)鏡的視頻生成模型ReCamMaster。用戶可以上傳任意視頻并指定新相機(jī)拍攝軌跡,實(shí)現(xiàn)已有視頻的重運(yùn)鏡。該工作還發(fā)布了一個(gè)高質(zhì)量多相機(jī)同步拍攝的視頻數(shù)據(jù)集MultiCamVideo-Dataset,數(shù)據(jù)集和訓(xùn)練、測(cè)試代碼均已開源。
https://mp.weixin.qq.com/s/R8UjNzOOLs93GsMu3EYXBA
此外,ReCamMaster在4D重建、視頻去抖動(dòng)、自動(dòng)駕駛、具身智能等領(lǐng)域有較強(qiáng)的應(yīng)用價(jià)值。
論文標(biāo)題:ReCamMaster:Camera-ControlledGenerativeRenderingfromASingleVideo項(xiàng)目主頁(yè):https://jianhongbai.github.io/ReCamMaster代碼:https://github.com/KwaiVGI/ReCamMaster論文:https://arxiv.org/abs/2503.11647
1.ReCamMaster能力展示
a)視頻重運(yùn)鏡
b)4D場(chǎng)景重建
c)視頻去抖動(dòng)
d)在自動(dòng)駕駛、具身智能等場(chǎng)景作為數(shù)據(jù)生成器
可以觀察到,ReCamMaster生成的視頻可以保持原視頻中的場(chǎng)景和動(dòng)態(tài),并在不同場(chǎng)景有較好的泛化性。更多示例請(qǐng)?jiān)L問(wèn)項(xiàng)目主頁(yè):https://jianhongbai.github.io/ReCamMaster/
2.ReCamMaster創(chuàng)新點(diǎn)
研究者表示,ReCamMaster的主要?jiǎng)?chuàng)新點(diǎn)為:
提出了一種新的簡(jiǎn)單且有效的videoconditioning范式,性能較之前方法有大幅度提升。發(fā)布了一個(gè)高質(zhì)量多相機(jī)同步拍攝的視頻數(shù)據(jù)集。該數(shù)據(jù)集在相機(jī)可控的視頻生成、4D重建等領(lǐng)域有較高的實(shí)用價(jià)值。首次將單視頻的重運(yùn)鏡效果做到準(zhǔn)產(chǎn)品級(jí)的性能,驗(yàn)證了視頻生成模型在此類任務(wù)上的巨大潛力。
3.ReCamMaster算法解讀
如上圖所示,ReCamMaster的核心創(chuàng)新點(diǎn)在于提出了一種新的videoconditioning范式,即將conditionvideo與targetvideo在patchify之后沿時(shí)間維度拼接。所提出的videoconditioning范式較之前工作所常用的通道維度拼接有顯著的性能提升。
4.MultiCamVideo數(shù)據(jù)集
MultiCamVideo數(shù)據(jù)集是使用UnrealEngine5渲染的多攝像機(jī)同步視頻數(shù)據(jù)集。它包含13,600個(gè)不同的動(dòng)態(tài)場(chǎng)景,每個(gè)場(chǎng)景由10個(gè)攝像機(jī)沿不同的相機(jī)軌跡拍攝,總計(jì)136,000個(gè)視頻,112,000個(gè)不同的相機(jī)軌跡。MultiCamVideo以66個(gè)不同的人物為“主要拍攝對(duì)象”,93種不同的人物動(dòng)作,和37個(gè)高質(zhì)量3D環(huán)境作為背景。數(shù)據(jù)集示例如下:
https://mp.weixin.qq.com/s/R8UjNzOOLs93GsMu3EYXBA
5.ReCamMaster實(shí)驗(yàn)結(jié)果
https://mp.weixin.qq.com/s/R8UjNzOOLs93GsMu3EYXBA
視頻中研究者將ReCamMaster與最先進(jìn)的方法進(jìn)行了比較,ReCamMaster較baseline有較大幅度的性能提升。
6.總結(jié)
在本文中,研究者提出了ReCamMaster,一種可將輸入視頻沿新相機(jī)軌跡重新運(yùn)鏡的視頻生成模型。ReCamMaster的核心創(chuàng)新點(diǎn)在于提出了一種簡(jiǎn)單且有效的videoconditioning范式,其性能顯著優(yōu)于baseline方法。此外、研究者還發(fā)布了多相機(jī)同步視頻數(shù)據(jù)集MultiCamVideo-Dataset用于相機(jī)可控的視頻生成、4D重建等領(lǐng)域的研究。
更多細(xì)節(jié)請(qǐng)參閱原論文。
延伸閱讀:與 帶你從全新:角度看好!!《萊塢大片》 的相關(guān)文章