近期,夸克技術(shù)團(tuán)隊(duì)和浙江大學(xué)聯(lián)合開(kāi)源了OmniAvatar,這是一個(gè)創(chuàng)新的音頻驅(qū)動(dòng)全身視頻生成模型,只需要輸入一張圖片和一段音頻,OmniAvatar即可生成相應(yīng)視頻,且顯著提升了畫面中人物的唇形同步細(xì)節(jié)和全身動(dòng)作的流暢性。此外,還可通過(guò)提示詞進(jìn)一步精準(zhǔn)控制人物姿勢(shì)、情緒、場(chǎng)景等要素。
OmniAvatar已開(kāi)源:
Model:https://huggingface.co/OmniAvatar/OmniAvatar-14BCode:https://github.com/Omni-Avatar/OmniAvatarArxiv:https://arxiv.org/abs/2506.18866ProjectPage:https://omni-avatar.github.io/
以下,是OmniAvatar在播客、唱歌、交互、動(dòng)態(tài)背景等場(chǎng)景下的部分案例。
實(shí)驗(yàn)表明,OmniAvatar在唇形同步、面部及半身視頻生成、文本控制等多個(gè)維度上,均取得領(lǐng)先表現(xiàn),并更好地平衡了視頻質(zhì)量、準(zhǔn)確度、審美三要素。
此外,OmniAvatar專門針對(duì)長(zhǎng)視頻生成進(jìn)行了優(yōu)化,可以更好地保持人物一致性和時(shí)間連貫性。
模型能力
圖片+音頻=全身視頻
當(dāng)前,音頻驅(qū)動(dòng)人體運(yùn)動(dòng)的技術(shù)已取得顯著進(jìn)展,但大多數(shù)方法仍集中在面部運(yùn)動(dòng),缺乏全身驅(qū)動(dòng)的能力,且難以進(jìn)行精確的提示詞控制。
OmniAvatar以Wan2.1-T2V-14B為基礎(chǔ)模型,利用LoRA方法進(jìn)行微調(diào),有效地引入了音頻特征。這種結(jié)合不僅保留了Wan2.1-T2V-14B在視頻生成方面的強(qiáng)大能力,還提高了模型對(duì)音頻輸入的適應(yīng)性和生成質(zhì)量。
OmniAvatar架構(gòu)圖
接下來(lái),我們將通過(guò)一些具體案例,更詳細(xì)地展示模型在多種場(chǎng)景下的能力。
OmniAvatar能夠根據(jù)輸入的音頻和提示詞,生成虛擬人物視頻,其中,人物的唇形運(yùn)動(dòng)與音頻內(nèi)容吻合,場(chǎng)景則反映了提示詞內(nèi)容:
通過(guò)調(diào)整提示詞,還可實(shí)現(xiàn)對(duì)人物情緒的精確控制:
在帶有鏡頭運(yùn)動(dòng)的場(chǎng)景中,OmniAvatar仍能夠保持面部、動(dòng)作和背景的自然流暢,展現(xiàn)了模型在動(dòng)態(tài)場(chǎng)景下的強(qiáng)大適應(yīng)能力:
對(duì)于長(zhǎng)視頻生成,OmniAvatar通過(guò)參考圖像嵌入策略和幀重疊技術(shù),確保了視頻的連貫性和人物身份的一致性:
像素級(jí)多層次音頻嵌入策略
精準(zhǔn)唇部運(yùn)動(dòng)+自然肢體動(dòng)作
大多數(shù)現(xiàn)有方法通常依賴交叉注意力機(jī)制來(lái)引入音頻特征,雖然效果良好,但會(huì)引入大量額外的計(jì)算開(kāi)銷,并且容易過(guò)度關(guān)注音頻與面部特征之間的關(guān)系。
針對(duì)這一問(wèn)題,團(tuán)隊(duì)提出了一種基于像素的音頻嵌入策略,使音頻特征可以直接在模型的潛在空間中以像素級(jí)的方式融入。通過(guò)這一方法,不僅可以自然地將唇部運(yùn)動(dòng)與音頻內(nèi)容對(duì)齊,還能夠確保音頻信息在整個(gè)視頻像素中均勻分布,從而使模型生成更協(xié)調(diào)、更自然的身體動(dòng)作來(lái)匹配音頻。
該策略首先使用Wav2Vec2模型提取音頻特征,然后對(duì)這些特征進(jìn)行分組打包和壓縮,再通過(guò)音頻打包模塊映射到視頻的潛在空間中。
接下來(lái),為了確保模型在深層網(wǎng)絡(luò)中能有效地學(xué)習(xí)和保留音頻特征,OmniAvatar采用了一種多層級(jí)音頻嵌入策略,將音頻信息嵌入到DiT模塊的不同階段中。為防止音頻特征對(duì)潛在空間產(chǎn)生過(guò)度干擾,音頻嵌入僅應(yīng)用于模型的第二層至中間層之間的模塊。此外,這些層的權(quán)重不共享,使模型能夠在不同層次上保持獨(dú)立的學(xué)習(xí)路徑。
基于LoRA的優(yōu)化策略
平衡微調(diào),兼顧質(zhì)量與細(xì)節(jié)
目前,針對(duì)音頻條件擴(kuò)散模型的方法主要遵循兩種策略:一種是訓(xùn)練完整的模型,另一種是僅微調(diào)特定層。
在進(jìn)行完整訓(xùn)練時(shí),團(tuán)隊(duì)發(fā)現(xiàn)更新所有層反而會(huì)導(dǎo)致模型生成的連貫性和視頻質(zhì)量下降。具體來(lái)看,由于模型過(guò)度擬合人類語(yǔ)音數(shù)據(jù)集,導(dǎo)致泛化能力差,容易生成不切實(shí)際或靜態(tài)的內(nèi)容,難以捕捉細(xì)節(jié)。但另一方面,僅微調(diào)和音頻特征相關(guān)的層會(huì)導(dǎo)致音頻和視頻之間的對(duì)齊效果差,唇形同步性能受損。
效果對(duì)比
為了解決這些挑戰(zhàn),團(tuán)隊(duì)提出了一種基于LoRA的平衡微調(diào)策略。該策略不同于以上兩種方法,而是使用LoRA策略高效地適應(yīng)模型。LoRA通過(guò)在注意力和前向傳播(FFN)層的權(quán)重更新中引入低秩矩陣,使模型能夠在不改變底層模型容量的情況下學(xué)習(xí)音頻特征。
長(zhǎng)視頻生成
身份保留+時(shí)間一致性
長(zhǎng)視頻連續(xù)生成是音頻驅(qū)動(dòng)視頻生成的難點(diǎn),也是一項(xiàng)關(guān)鍵挑戰(zhàn)。為此,團(tuán)隊(duì)提出了參考圖嵌入和重疊幀策略,以實(shí)現(xiàn)人物的身份保留和時(shí)間一致性。
代碼示例
身份保留。OmniAvatar引入了一個(gè)參考幀,作為人物身份的固定指導(dǎo)。具體來(lái)看,首先需提取參考幀的潛在表示;然后將這些表示多次重復(fù),使其長(zhǎng)度與視頻幀數(shù)匹配;接下來(lái),再在每個(gè)時(shí)間步,將這個(gè)重復(fù)的參考幀潛在表示與視頻潛在表示進(jìn)行連接。因此,通過(guò)參考幀設(shè)計(jì),可有效錨定人物身份,確保在整個(gè)長(zhǎng)視頻序列中的人物一致性。
時(shí)間一致性。為了實(shí)現(xiàn)無(wú)縫的視頻連續(xù)性,OmniAvatar采用了一種潛在重疊策略。首先,在訓(xùn)練時(shí)使用單幀和多幀前綴潛在變量的組合進(jìn)行訓(xùn)練;其次,在推理過(guò)程中,對(duì)于第一批的幀,參考幀既作為前綴潛在變量,又作為身份指導(dǎo);對(duì)于后續(xù)批次,則用前一組的最后幀作為潛在變量,參考幀仍保持固定用作身份指導(dǎo)。
OneMoreThing
OmniAvatar是團(tuán)隊(duì)在多模態(tài)視頻生成上的初步嘗試,并在實(shí)驗(yàn)數(shù)據(jù)集上得到了初步驗(yàn)證,但尚未達(dá)到產(chǎn)品級(jí)應(yīng)用水平。未來(lái),團(tuán)隊(duì)還將在復(fù)雜指令處理能力、多角色交互等方面進(jìn)一步探索,擴(kuò)大模型在更多場(chǎng)景中的應(yīng)用。
銷售人員的職業(yè)技能與素質(zhì)訓(xùn)練
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。