近期,夸克技術(shù)團隊和浙江大學(xué)聯(lián)合開源了OmniAvatar,這是一個創(chuàng)新的音頻驅(qū)動全身視頻生成模型,只需要輸入一張圖片和一段音頻,OmniAvatar即可生成相應(yīng)視頻,且顯著提升了畫面中人物的唇形同步細節(jié)和全身動作的流暢性。此外,還可通過提示詞進一步精準控制人物姿勢、情緒、場景等要素。
OmniAvatar已開源:
Model:https://huggingface.co/OmniAvatar/OmniAvatar-14BCode:https://github.com/Omni-Avatar/OmniAvatarArxiv:https://arxiv.org/abs/2506.18866ProjectPage:https://omni-avatar.github.io/
以下,是OmniAvatar在播客、唱歌、交互、動態(tài)背景等場景下的部分案例。
實驗表明,OmniAvatar在唇形同步、面部及半身視頻生成、文本控制等多個維度上,均取得領(lǐng)先表現(xiàn),并更好地平衡了視頻質(zhì)量、準確度、審美三要素。
此外,OmniAvatar專門針對長視頻生成進行了優(yōu)化,可以更好地保持人物一致性和時間連貫性。
模型能力
圖片+音頻=全身視頻
當前,音頻驅(qū)動人體運動的技術(shù)已取得顯著進展,但大多數(shù)方法仍集中在面部運動,缺乏全身驅(qū)動的能力,且難以進行精確的提示詞控制。
OmniAvatar以Wan2.1-T2V-14B為基礎(chǔ)模型,利用LoRA方法進行微調(diào),有效地引入了音頻特征。這種結(jié)合不僅保留了Wan2.1-T2V-14B在視頻生成方面的強大能力,還提高了模型對音頻輸入的適應(yīng)性和生成質(zhì)量。
OmniAvatar架構(gòu)圖
接下來,我們將通過一些具體案例,更詳細地展示模型在多種場景下的能力。
OmniAvatar能夠根據(jù)輸入的音頻和提示詞,生成虛擬人物視頻,其中,人物的唇形運動與音頻內(nèi)容吻合,場景則反映了提示詞內(nèi)容:
通過調(diào)整提示詞,還可實現(xiàn)對人物情緒的精確控制:
在帶有鏡頭運動的場景中,OmniAvatar仍能夠保持面部、動作和背景的自然流暢,展現(xiàn)了模型在動態(tài)場景下的強大適應(yīng)能力:
對于長視頻生成,OmniAvatar通過參考圖像嵌入策略和幀重疊技術(shù),確保了視頻的連貫性和人物身份的一致性:
像素級多層次音頻嵌入策略
精準唇部運動+自然肢體動作
大多數(shù)現(xiàn)有方法通常依賴交叉注意力機制來引入音頻特征,雖然效果良好,但會引入大量額外的計算開銷,并且容易過度關(guān)注音頻與面部特征之間的關(guān)系。
針對這一問題,團隊提出了一種基于像素的音頻嵌入策略,使音頻特征可以直接在模型的潛在空間中以像素級的方式融入。通過這一方法,不僅可以自然地將唇部運動與音頻內(nèi)容對齊,還能夠確保音頻信息在整個視頻像素中均勻分布,從而使模型生成更協(xié)調(diào)、更自然的身體動作來匹配音頻。
該策略首先使用Wav2Vec2模型提取音頻特征,然后對這些特征進行分組打包和壓縮,再通過音頻打包模塊映射到視頻的潛在空間中。
接下來,為了確保模型在深層網(wǎng)絡(luò)中能有效地學(xué)習和保留音頻特征,OmniAvatar采用了一種多層級音頻嵌入策略,將音頻信息嵌入到DiT模塊的不同階段中。為防止音頻特征對潛在空間產(chǎn)生過度干擾,音頻嵌入僅應(yīng)用于模型的第二層至中間層之間的模塊。此外,這些層的權(quán)重不共享,使模型能夠在不同層次上保持獨立的學(xué)習路徑。
基于LoRA的優(yōu)化策略
平衡微調(diào),兼顧質(zhì)量與細節(jié)
目前,針對音頻條件擴散模型的方法主要遵循兩種策略:一種是訓(xùn)練完整的模型,另一種是僅微調(diào)特定層。
在進行完整訓(xùn)練時,團隊發(fā)現(xiàn)更新所有層反而會導(dǎo)致模型生成的連貫性和視頻質(zhì)量下降。具體來看,由于模型過度擬合人類語音數(shù)據(jù)集,導(dǎo)致泛化能力差,容易生成不切實際或靜態(tài)的內(nèi)容,難以捕捉細節(jié)。但另一方面,僅微調(diào)和音頻特征相關(guān)的層會導(dǎo)致音頻和視頻之間的對齊效果差,唇形同步性能受損。
效果對比
為了解決這些挑戰(zhàn),團隊提出了一種基于LoRA的平衡微調(diào)策略。該策略不同于以上兩種方法,而是使用LoRA策略高效地適應(yīng)模型。LoRA通過在注意力和前向傳播(FFN)層的權(quán)重更新中引入低秩矩陣,使模型能夠在不改變底層模型容量的情況下學(xué)習音頻特征。
長視頻生成
身份保留+時間一致性
長視頻連續(xù)生成是音頻驅(qū)動視頻生成的難點,也是一項關(guān)鍵挑戰(zhàn)。為此,團隊提出了參考圖嵌入和重疊幀策略,以實現(xiàn)人物的身份保留和時間一致性。
代碼示例
身份保留。OmniAvatar引入了一個參考幀,作為人物身份的固定指導(dǎo)。具體來看,首先需提取參考幀的潛在表示;然后將這些表示多次重復(fù),使其長度與視頻幀數(shù)匹配;接下來,再在每個時間步,將這個重復(fù)的參考幀潛在表示與視頻潛在表示進行連接。因此,通過參考幀設(shè)計,可有效錨定人物身份,確保在整個長視頻序列中的人物一致性。
時間一致性。為了實現(xiàn)無縫的視頻連續(xù)性,OmniAvatar采用了一種潛在重疊策略。首先,在訓(xùn)練時使用單幀和多幀前綴潛在變量的組合進行訓(xùn)練;其次,在推理過程中,對于第一批的幀,參考幀既作為前綴潛在變量,又作為身份指導(dǎo);對于后續(xù)批次,則用前一組的最后幀作為潛在變量,參考幀仍保持固定用作身份指導(dǎo)。
OneMoreThing
OmniAvatar是團隊在多模態(tài)視頻生成上的初步嘗試,并在實驗數(shù)據(jù)集上得到了初步驗證,但尚未達到產(chǎn)品級應(yīng)用水平。未來,團隊還將在復(fù)雜指令處理能力、多角色交互等方面進一步探索,擴大模型在更多場景中的應(yīng)用。
小說:末世七年人類外遷,藍星竟有遺孤求生?他狂爆獎勵!
“去死吧你!”同時,在喪尸反應(yīng)過來之前,一菜刀狠狠砍在它腦袋上,骨頭觸感仿佛泡爛的木頭-。刀刃沒入三分之二|?!斑溃 眴适痣p手,還未碰到陳偉,便脫刀,倒在他面前,死去。同時,眼前可以看到獎勵提示_|?!緭魵适晒?!恭喜宿主獲得黑鐵寶箱x1!】沒有猶豫,選擇立即打開-|?!菊诖蜷_黑鐵寶箱中……】【打開成功 ”宋硯笑呵呵的道,獲得戒指系統(tǒng)后,宋硯發(fā)現(xiàn)自己有底氣多了,即使面對美美的韓莎老師也能保持坦然??粗纬幵谧约好媲熬尤贿@般淡定,韓莎稍稍有些意外:“老師在修改試卷,咱們一起走吧————。”她不止帶高三九班的英語課,還兼認高一五班的英語老師_?!皹s幸之至|?!彼纬廃c點頭|。韓莎再次一愣,隱隱覺得宋硯身上應(yīng)該發(fā)生后面會介紹——-。