本文第一作者白健弘,浙江大學(xué)26屆博士生,研究方向為視頻生成,目前正在尋找工業(yè)界全職崗位。
作為視頻拍攝愛好者,你是否曾因為設(shè)備限制無法完成想要實現(xiàn)的運鏡效果?例如想要將鏡頭上移拍攝風(fēng)景的全貌,但沒有入手拍攝無人機;又或是對拍攝素材很滿意,但拍攝時手抖影響了成片質(zhì)量。作為AI視頻創(chuàng)作者,是否對于生成視頻的內(nèi)容很滿意,然而運鏡卻不盡人意?
為了解決以上問題,可靈研究團隊提出了一種可將輸入視頻沿新相機軌跡重新運鏡的視頻生成模型ReCamMaster。用戶可以上傳任意視頻并指定新相機拍攝軌跡,實現(xiàn)已有視頻的重運鏡。該工作還發(fā)布了一個高質(zhì)量多相機同步拍攝的視頻數(shù)據(jù)集MultiCamVideo-Dataset,數(shù)據(jù)集和訓(xùn)練、測試代碼均已開源。
https://mp.weixin.qq.com/s/R8UjNzOOLs93GsMu3EYXBA
此外,ReCamMaster在4D重建、視頻去抖動、自動駕駛、具身智能等領(lǐng)域有較強的應(yīng)用價值。
論文標題:ReCamMaster:Camera-ControlledGenerativeRenderingfromASingleVideo項目主頁:https://jianhongbai.github.io/ReCamMaster代碼:https://github.com/KwaiVGI/ReCamMaster論文:https://arxiv.org/abs/2503.11647
1.ReCamMaster能力展示
a)視頻重運鏡
b)4D場景重建
c)視頻去抖動
d)在自動駕駛、具身智能等場景作為數(shù)據(jù)生成器
可以觀察到,ReCamMaster生成的視頻可以保持原視頻中的場景和動態(tài),并在不同場景有較好的泛化性。更多示例請訪問項目主頁:https://jianhongbai.github.io/ReCamMaster/
2.ReCamMaster創(chuàng)新點
研究者表示,ReCamMaster的主要創(chuàng)新點為:
提出了一種新的簡單且有效的videoconditioning范式,性能較之前方法有大幅度提升。發(fā)布了一個高質(zhì)量多相機同步拍攝的視頻數(shù)據(jù)集。該數(shù)據(jù)集在相機可控的視頻生成、4D重建等領(lǐng)域有較高的實用價值。首次將單視頻的重運鏡效果做到準產(chǎn)品級的性能,驗證了視頻生成模型在此類任務(wù)上的巨大潛力。
3.ReCamMaster算法解讀
如上圖所示,ReCamMaster的核心創(chuàng)新點在于提出了一種新的videoconditioning范式,即將conditionvideo與targetvideo在patchify之后沿時間維度拼接。所提出的videoconditioning范式較之前工作所常用的通道維度拼接有顯著的性能提升。
4.MultiCamVideo數(shù)據(jù)集
MultiCamVideo數(shù)據(jù)集是使用UnrealEngine5渲染的多攝像機同步視頻數(shù)據(jù)集。它包含13,600個不同的動態(tài)場景,每個場景由10個攝像機沿不同的相機軌跡拍攝,總計136,000個視頻,112,000個不同的相機軌跡。MultiCamVideo以66個不同的人物為“主要拍攝對象”,93種不同的人物動作,和37個高質(zhì)量3D環(huán)境作為背景。數(shù)據(jù)集示例如下:
https://mp.weixin.qq.com/s/R8UjNzOOLs93GsMu3EYXBA
5.ReCamMaster實驗結(jié)果
https://mp.weixin.qq.com/s/R8UjNzOOLs93GsMu3EYXBA
視頻中研究者將ReCamMaster與最先進的方法進行了比較,ReCamMaster較baseline有較大幅度的性能提升。
6.總結(jié)
在本文中,研究者提出了ReCamMaster,一種可將輸入視頻沿新相機軌跡重新運鏡的視頻生成模型。ReCamMaster的核心創(chuàng)新點在于提出了一種簡單且有效的videoconditioning范式,其性能顯著優(yōu)于baseline方法。此外、研究者還發(fā)布了多相機同步視頻數(shù)據(jù)集MultiCamVideo-Dataset用于相機可控的視頻生成、4D重建等領(lǐng)域的研究。
更多細節(jié)請參閱原論文。