蛋仔派對(duì) | 今天上線!蛋仔島居然一顆蛋都沒有!究竟是誰的陰謀呢?點(diǎn)擊查看!【蛋仔必看系列】
張碧晨方稱享有《年輪》永久演唱權(quán)利,依據(jù)是什么?
智東西作者李水青編輯心緣
智東西7月28日?qǐng)?bào)道,剛剛,阿里開源視頻生成模型通義萬相Wan2.2,包括文生視頻Wan2.2-T2V-A14B、圖生視頻Wan2.2-I2V-A14B和統(tǒng)一視頻生成Wan2.2-IT2V-5B三款模型。
其中,文生視頻模型和圖生視頻模型為業(yè)界首個(gè)使用MoE架構(gòu)的視頻生成模型,總參數(shù)量為27B,激活參數(shù)14B,在同參數(shù)規(guī)模下可節(jié)省約50%的計(jì)算資源消耗,在復(fù)雜運(yùn)動(dòng)生成、人物交互、美學(xué)表達(dá)等維度上取得了顯著提升。5B版本統(tǒng)一視頻生成模型同時(shí)支持文生視頻和圖生視頻,可在消費(fèi)級(jí)顯卡部署,是目前24幀每秒、720P像素級(jí)的生成速度最快的基礎(chǔ)模型。
▲通義萬相Wan2.2生成的視頻
此外,阿里通義萬相團(tuán)隊(duì)首次推出電影級(jí)美學(xué)控制系統(tǒng),將光影、構(gòu)圖、色彩等要素編碼成60多個(gè)直觀的參數(shù)并裝進(jìn)生成模型。Wan2.2目前單次可生成5s的高清視頻,可以隨意組合60多個(gè)直觀可控的參數(shù)。
官方測(cè)試顯示,通義萬相Wan2.2在運(yùn)動(dòng)質(zhì)量、畫面質(zhì)量等多項(xiàng)測(cè)試中超越了OpenAISora、快手Kling2.0等領(lǐng)先的閉源商業(yè)模型。
業(yè)界首個(gè)使用MoE架構(gòu)的視頻生成模型有哪些技術(shù)創(chuàng)新點(diǎn)?5B版本又是如何實(shí)現(xiàn)消費(fèi)級(jí)顯卡可部署的?通過對(duì)話通義萬相相關(guān)技術(shù)負(fù)責(zé)人,智東西對(duì)此進(jìn)行探討解讀。
目前,開發(fā)者可在GitHub、HuggingFace、魔搭社區(qū)下載模型和代碼,企業(yè)可在阿里云百煉調(diào)用模型API,用戶還可在通義萬相官網(wǎng)和通義APP直接體驗(yàn)。
GitHub地址:https://github.com/Wan-Video/Wan2.2HuggingFace地址:https://huggingface.co/Wan-AI魔搭社區(qū)地址:https://modelscope.cn/organization/Wan-AI
一、推出首個(gè)MoE架構(gòu)視頻生成模型,5B版本消費(fèi)級(jí)顯卡可跑
根據(jù)官方介紹,通義萬相Wan2.2的特色包括光影色彩及構(gòu)圖達(dá)到電影級(jí),擅長生成復(fù)雜運(yùn)動(dòng)等,首先來看幾個(gè)視頻生成案例:
提示詞1:Sidelit,softlight,highcontrast,mediumshot,centeredcomposition,cleansinglesubjectframe,warmtones.Ayoungmanstandsinaforest,hisheadgentlylifted,withcleareyes.Sunlightfiltersthroughleaves,creatingagoldenhaloaroundhishair.Dressedinalight-coloredshirt,abreezeplayswithhishairandcollarasthelightdancesacrosshisfacewitheachmovement.Backgroundblurred,featuringdistantdappledlightandsofttreesilhouettes.
(側(cè)光照明,光線柔和,高對(duì)比度,中景鏡頭,居中構(gòu)圖,畫面簡潔且主體單一,色調(diào)溫暖。一名年輕男子佇立在森林中,頭部微微上揚(yáng),目光清澈。陽光透過樹葉灑落,在他發(fā)間勾勒出一圈金色光暈。他身著淺色襯衫,微風(fēng)拂動(dòng)著他的發(fā)絲與衣領(lǐng),每一個(gè)細(xì)微的動(dòng)作都讓光影在他臉上流轉(zhuǎn)跳躍。背景虛化,隱約可見遠(yuǎn)處斑駁的光影和樹木柔和的剪影。)
視頻輸出的gif截?。?/p>
提示詞2:Amanontherun,dartingthroughtherain-soakedbackalleysofaneon-litcitynight,steamrisingfromthewetpavement.He’scladinadrenchedtrenchcoat,hisfaceetchedwithpanicashesprintsdownthealley,constantlylookingoverhisshoulder.Achasesequenceshotfrombehind,immersingtheviewerdeeply,asifthepursuersarerightbehindthecameralens.
(一個(gè)在逃的男人,在霓虹燈點(diǎn)亮的城市夜色中,沖過被雨水浸透的后巷,潮濕的路面上蒸騰起霧氣。他裹著一件濕透的風(fēng)衣,臉上刻滿驚慌,順著巷子狂奔,不斷回頭張望。這段追逐戲從后方拍攝,將觀眾深深帶入情境,仿佛追捕者就在鏡頭背后。)
視頻輸出的gif截?。?/p>
提示詞3:Apurelyvisualandatmosphericvideopiecefocusingontheinterplayoflightandshadow,withacorntrainasthecentralmotif.Imagineastagebathedindramatic,warmspotlights,whereacorntrain,renderedasastarksilhouette,movesslowlyacrossthespace.Thevideoexploresthedynamicinterplayoflightandshadowcastbythetrain,creatingabstractpatterns,shapes,andillusionsthatdanceacrossthestage.Thesoundtrackshouldbeambientandminimalist,enhancingtheatmosphericandabstractnatureofthepiece.
(這是一部純粹以視覺和氛圍見長的影像作品,核心聚焦光影的交織互動(dòng),以玉米列車為中心意象。試想一個(gè)舞臺(tái),被富有戲劇張力的暖調(diào)聚光燈籠罩,一列玉米列車化作鮮明的剪影,在空間中緩緩穿行。影片探尋列車投下的光影所形成的動(dòng)態(tài)呼應(yīng)——它們?cè)谖枧_(tái)上舞動(dòng),幻化出抽象的圖案、形態(tài)與視覺幻象。配樂應(yīng)采用氛圍化的極簡風(fēng)格,以此強(qiáng)化作品的氛圍感與抽象特質(zhì)。)
視頻輸出的gif截?。?/p>
背后,生成這些視頻的生成模型有什么技術(shù)創(chuàng)新點(diǎn)?這要從視頻生成模型在擴(kuò)展規(guī)模(scale-up)時(shí)面臨的挑戰(zhàn)說起,主要原因在于視頻生成需要處理的視頻token長度遠(yuǎn)超過文本和圖像,這導(dǎo)致計(jì)算資源消耗巨大,難以支撐大規(guī)模模型的訓(xùn)練與部署。
混合專家模型(MoE)架構(gòu)作為一種廣泛應(yīng)用于大型語言模型領(lǐng)域的模型擴(kuò)展方式,通過選擇專門的專家模型處理輸入的不同部分,擴(kuò)種模型容量卻不增加額外的計(jì)算負(fù)載。
1、首個(gè)MoE架構(gòu)的視頻生成模型,高噪+低噪專家模型“搭檔”
萬相2.2模型將MoE架構(gòu)實(shí)現(xiàn)到了視頻生成擴(kuò)散模型(DiffusionModel)中??紤]擴(kuò)散模型的去噪過程存在階段性差異,高噪聲階段關(guān)注生成視頻的整體布局,低噪聲階段則更關(guān)注細(xì)節(jié)的完善,萬相2.2模型根據(jù)去噪時(shí)間步進(jìn)行了專家模型劃分。
相比傳統(tǒng)架構(gòu),通義萬相Wan2.2MoE在減少計(jì)算負(fù)載的同時(shí)有哪些關(guān)鍵效果提升?業(yè)界首個(gè)使用MoE架構(gòu),團(tuán)隊(duì)主要攻克了哪些難點(diǎn)?
通義萬相團(tuán)隊(duì)相關(guān)負(fù)責(zé)人告訴智東西,團(tuán)隊(duì)并不是將語言模型中的MoE直接套用到視頻模型,而是用適配了視頻生成擴(kuò)散模型的MoE架構(gòu)。該架構(gòu)將整個(gè)去噪過程劃分為高噪聲和低噪聲兩個(gè)階段:在高噪聲階段,模型的任務(wù)是生成視頻大體的輪廓與時(shí)空布局;在低噪聲階段,模型主要是用來細(xì)化細(xì)節(jié)紋理和局部。每個(gè)階段對(duì)應(yīng)一個(gè)不同的專家模型,從而使每個(gè)專家專注特定的任務(wù)。
“我們的創(chuàng)新點(diǎn)是找到高階噪聲和低噪聲階段的劃分點(diǎn)。不合理的劃分會(huì)導(dǎo)致MoE架構(gòu)的增益效果不足。我們引入了一個(gè)簡單而有效的新指標(biāo)——信噪比來進(jìn)行指導(dǎo),根據(jù)信噪比范圍對(duì)高噪和低噪的時(shí)間T進(jìn)行劃分。通過這種MoE的架構(gòu),我們總參數(shù)量相比于2.1版本擴(kuò)大了一倍,但訓(xùn)練和推理每階段的激活值還是14B,所以整體的計(jì)算量和顯存并沒有顯著增加,效果上是有效的提升了運(yùn)動(dòng)復(fù)雜運(yùn)動(dòng)和美學(xué)的生存能力?!边@位負(fù)責(zé)人說。
▲萬相2.2的28B版本由高噪專家模型和低噪專家模型組成
2、數(shù)據(jù)擴(kuò)容提高生成質(zhì)量,支撐與美學(xué)精調(diào)
較上一代萬相2.1模型,萬相2.2模型的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)了顯著擴(kuò)充與升級(jí),其中圖像數(shù)據(jù)增加65.6%,視頻數(shù)據(jù)增加83.2%。數(shù)據(jù)擴(kuò)容提升了模型的泛化能力與創(chuàng)作多樣性,使得模型在復(fù)雜場景、美學(xué)表達(dá)和運(yùn)動(dòng)生成方面表現(xiàn)更加出色。
模型還引入了專門的美學(xué)精調(diào)階段,通過細(xì)粒度地訓(xùn)練,使得視頻生成的美學(xué)屬性能夠與用戶給定的Prompt(提示詞)相對(duì)應(yīng)。
萬相2.2模型在訓(xùn)練過程中融合了電影工業(yè)標(biāo)準(zhǔn)的光影塑造、鏡頭構(gòu)圖法則和色彩心理學(xué)體系,將專業(yè)電影導(dǎo)演的美學(xué)屬性進(jìn)行了分類,并細(xì)致整理成美學(xué)提示詞。
因此,萬相2.2模型能夠根據(jù)用戶的美學(xué)提示詞準(zhǔn)確理解并響應(yīng)用戶的美學(xué)需求。訓(xùn)練后期,模型還通過強(qiáng)化學(xué)習(xí)(RL)技術(shù)進(jìn)行進(jìn)一步的微調(diào),有效地對(duì)齊人類審美偏好。
3、高壓縮比視頻生成,5B模型可部署消費(fèi)級(jí)顯卡
為了更高效地部署視頻生成模型,萬相2.2探索了一種模型體積更小、信息下降率更高的技術(shù)路徑。
通義萬相Wan2.2開源5B版本消費(fèi)級(jí)顯卡可部署,該設(shè)計(jì)如何平衡壓縮率與重建質(zhì)量?
通義萬相團(tuán)隊(duì)相關(guān)負(fù)責(zé)人告訴智東西,為了兼顧性能與部署的便捷性,wan2.2版本開發(fā)了一個(gè)5B小參數(shù)版。這一版本比2.1版本的14B模型小了一半多。同時(shí)團(tuán)隊(duì)采用了自研高壓縮比VAE結(jié)構(gòu),整體實(shí)現(xiàn)了在特征空間上16×16的高壓縮率,是2.1版本壓縮率(8×8)的四倍,從而顯著降低了顯存占用。
為了解決高壓縮比帶來的問題,團(tuán)隊(duì)在這個(gè)VAE的訓(xùn)練中引入了非對(duì)稱的編碼結(jié)構(gòu)以及殘差采樣機(jī)制;同時(shí)其還增加了這個(gè)隱空間的維度,把原來的2.1版本的16位增加到了48位。這樣使模型在更大的壓縮率下保持了良好的重建質(zhì)量。
此次開源的5B版本采用了高壓縮比VAE結(jié)構(gòu),在視頻生成的特征空間實(shí)現(xiàn)了視頻高度(H)、寬度(W)與時(shí)間(T)維度上32×32×4的壓縮比,有效減少了顯存占用。5B版本可在消費(fèi)級(jí)顯卡上快速部署,僅需xx顯存即可在xx秒內(nèi)生成5秒720p視頻。此外,5B版本實(shí)現(xiàn)了文本生成視頻和圖像生成視頻的混合訓(xùn)練,單一模型可滿足兩大核心任務(wù)需求。
此次開源中,萬相2.2也同步公開了全新的高壓縮比VAE結(jié)構(gòu),通過引入殘差采樣結(jié)構(gòu)和非對(duì)稱編解碼框架,在更高的信息壓縮率下依然保持了出色的重建質(zhì)量。
二、60+專業(yè)參數(shù)引入,實(shí)現(xiàn)電影級(jí)美學(xué)控制
本次,阿里通義萬相團(tuán)隊(duì)還推出了“電影級(jí)美學(xué)控制系統(tǒng)”,通過60+專業(yè)參數(shù)賦能,將專業(yè)導(dǎo)演的光影、色彩、鏡頭語言裝進(jìn)生成模型。用戶通過直觀選擇美學(xué)關(guān)鍵詞,即可智能生成電影質(zhì)感的視頻畫面。
許多創(chuàng)作者都遇到過這樣的難題:明明腦海中有充滿電影感的畫面,如王家衛(wèi)式的霓虹夜晚、諾蘭式的硬核實(shí)景、韋斯·安德森式的對(duì)稱構(gòu)圖,實(shí)際生成的效果卻總差強(qiáng)人意——光線平淡像隨手拍、構(gòu)圖隨意缺乏張力、色調(diào)混亂沒有氛圍。
通義萬相團(tuán)隊(duì)認(rèn)為,根本原因在于,真正的電影感源于對(duì)光影、色彩、鏡頭語言三大美學(xué)體系的精密控制。這些專業(yè)能力以往需要多年的學(xué)習(xí)和實(shí)踐才能掌握。wan2.2的全新功能可以解決這一核心痛點(diǎn)。
智能美學(xué)詞響應(yīng)是系統(tǒng)的核心創(chuàng)新。用戶無需理解復(fù)雜的電影術(shù)語,只需在中文界面選擇想要的美學(xué)關(guān)鍵詞,如黃昏、柔光、側(cè)光、冷色調(diào)、對(duì)稱構(gòu)圖、特寫等,系統(tǒng)將自動(dòng)理解并精確響應(yīng),在后臺(tái)智能調(diào)整燈光屬性、攝像機(jī)參數(shù)、色彩濾鏡等數(shù)十項(xiàng)技術(shù)指標(biāo)。
三、可生成復(fù)雜運(yùn)動(dòng),強(qiáng)化物理世界還原能力
在文生視頻領(lǐng)域,生成基礎(chǔ)、平緩的動(dòng)作已非難事,但如何生成大幅度、高復(fù)雜度、高細(xì)節(jié)的動(dòng)作,如街舞、體操等,始終是技術(shù)躍遷的關(guān)鍵挑戰(zhàn)。
Wan2.2模型針對(duì)面部表情,手部動(dòng)作,單人、多人交互、復(fù)雜動(dòng)作等方面進(jìn)行了專門優(yōu)化,大幅提升了細(xì)微表情、靈巧手勢(shì)、單人與多人交互、復(fù)雜體育運(yùn)動(dòng)等生成能力。
比如,Wan2.2構(gòu)建了人類面部原子動(dòng)作和情緒表情系統(tǒng)。它不僅能生成如“開懷大笑”、“輕蔑冷笑”、“驚恐屏息”等典型情緒表達(dá),更能細(xì)膩刻畫“羞澀微笑中的臉頰微紅”、“思考時(shí)不經(jīng)意的挑眉”、“強(qiáng)忍淚水時(shí)的嘴唇顫抖”等復(fù)雜微表情,從而精準(zhǔn)傳達(dá)復(fù)雜的人物情緒與內(nèi)心狀態(tài)。
比如,Wan2.2還構(gòu)建了豐富的手部動(dòng)作系統(tǒng),能夠生成從力量傳遞的基礎(chǔ)物理操作、精細(xì)器具交互的復(fù)雜控制,到蘊(yùn)含文化語義的手勢(shì)符號(hào)體系,乃至專業(yè)領(lǐng)域的精密動(dòng)作范式等手部動(dòng)作。
此外值得一提的是,Wan2.2模型針對(duì)多項(xiàng)基礎(chǔ)物理定律與現(xiàn)象進(jìn)行了優(yōu)化。這包括對(duì)力學(xué)、光學(xué)以及流體力學(xué)和常見物理狀態(tài)變化的學(xué)習(xí),力求構(gòu)建高度真實(shí)的物理基礎(chǔ)。
在復(fù)雜動(dòng)態(tài)場景的處理上,Wan2.2專門優(yōu)化了多目標(biāo)生成與交互場景。它能夠穩(wěn)定地生成多個(gè)獨(dú)立物體或角色同時(shí)進(jìn)行的復(fù)雜動(dòng)作及其相互影響。此外,Wan2.2對(duì)復(fù)雜空間關(guān)系的理解與呈現(xiàn)也得到大幅增強(qiáng),能夠精確理解物體在三維空間中的相對(duì)位置、距離、深度、遮擋的空間結(jié)構(gòu)變化。
結(jié)語:突破視頻模型規(guī)模瓶頸,推動(dòng)AI視頻生成專業(yè)化演進(jìn)
Wan2.2首創(chuàng)MoE架構(gòu)視頻生成模型,為突破視頻模型規(guī)模瓶頸提供了新路徑;5B版本大幅降低高質(zhì)量視頻生成門檻,加速生成式AI工具普及。
“電影級(jí)美學(xué)控制”將專業(yè)影視標(biāo)準(zhǔn)體系化融入AI,有望推動(dòng)AI視頻生成工具向更加專業(yè)化的方向發(fā)展,助廣告、影視等行業(yè)高效產(chǎn)出專業(yè)內(nèi)容;其復(fù)雜運(yùn)動(dòng)與物理還原能力的提升,顯著增強(qiáng)了生成視頻的真實(shí)感,為教育、仿真等多領(lǐng)域應(yīng)用奠定基礎(chǔ)。