智東西作者李水青編輯心緣
智東西7月28日報道,剛剛,阿里開源視頻生成模型通義萬相Wan2.2,包括文生視頻Wan2.2-T2V-A14B、圖生視頻Wan2.2-I2V-A14B和統(tǒng)一視頻生成Wan2.2-IT2V-5B三款模型。
其中,文生視頻模型和圖生視頻模型為業(yè)界首個使用MoE架構的視頻生成模型,總參數量為27B,激活參數14B,在同參數規(guī)模下可節(jié)省約50%的計算資源消耗,在復雜運動生成、人物交互、美學表達等維度上取得了顯著提升。5B版本統(tǒng)一視頻生成模型同時支持文生視頻和圖生視頻,可在消費級顯卡部署,是目前24幀每秒、720P像素級的生成速度最快的基礎模型。
▲通義萬相Wan2.2生成的視頻
此外,阿里通義萬相團隊首次推出電影級美學控制系統(tǒng),將光影、構圖、色彩等要素編碼成60多個直觀的參數并裝進生成模型。Wan2.2目前單次可生成5s的高清視頻,可以隨意組合60多個直觀可控的參數。
官方測試顯示,通義萬相Wan2.2在運動質量、畫面質量等多項測試中超越了OpenAISora、快手Kling2.0等領先的閉源商業(yè)模型。
業(yè)界首個使用MoE架構的視頻生成模型有哪些技術創(chuàng)新點?5B版本又是如何實現(xiàn)消費級顯卡可部署的?通過對話通義萬相相關技術負責人,智東西對此進行探討解讀。
目前,開發(fā)者可在GitHub、HuggingFace、魔搭社區(qū)下載模型和代碼,企業(yè)可在阿里云百煉調用模型API,用戶還可在通義萬相官網和通義APP直接體驗。
GitHub地址:https://github.com/Wan-Video/Wan2.2HuggingFace地址:https://huggingface.co/Wan-AI魔搭社區(qū)地址:https://modelscope.cn/organization/Wan-AI
一、推出首個MoE架構視頻生成模型,5B版本消費級顯卡可跑
根據官方介紹,通義萬相Wan2.2的特色包括光影色彩及構圖達到電影級,擅長生成復雜運動等,首先來看幾個視頻生成案例:
提示詞1:Sidelit,softlight,highcontrast,mediumshot,centeredcomposition,cleansinglesubjectframe,warmtones.Ayoungmanstandsinaforest,hisheadgentlylifted,withcleareyes.Sunlightfiltersthroughleaves,creatingagoldenhaloaroundhishair.Dressedinalight-coloredshirt,abreezeplayswithhishairandcollarasthelightdancesacrosshisfacewitheachmovement.Backgroundblurred,featuringdistantdappledlightandsofttreesilhouettes.
(側光照明,光線柔和,高對比度,中景鏡頭,居中構圖,畫面簡潔且主體單一,色調溫暖。一名年輕男子佇立在森林中,頭部微微上揚,目光清澈。陽光透過樹葉灑落,在他發(fā)間勾勒出一圈金色光暈。他身著淺色襯衫,微風拂動著他的發(fā)絲與衣領,每一個細微的動作都讓光影在他臉上流轉跳躍。背景虛化,隱約可見遠處斑駁的光影和樹木柔和的剪影。)
視頻輸出的gif截取:
提示詞2:Amanontherun,dartingthroughtherain-soakedbackalleysofaneon-litcitynight,steamrisingfromthewetpavement.He’scladinadrenchedtrenchcoat,hisfaceetchedwithpanicashesprintsdownthealley,constantlylookingoverhisshoulder.Achasesequenceshotfrombehind,immersingtheviewerdeeply,asifthepursuersarerightbehindthecameralens.
(一個在逃的男人,在霓虹燈點亮的城市夜色中,沖過被雨水浸透的后巷,潮濕的路面上蒸騰起霧氣。他裹著一件濕透的風衣,臉上刻滿驚慌,順著巷子狂奔,不斷回頭張望。這段追逐戲從后方拍攝,將觀眾深深帶入情境,仿佛追捕者就在鏡頭背后。)
視頻輸出的gif截?。?/p>
提示詞3:Apurelyvisualandatmosphericvideopiecefocusingontheinterplayoflightandshadow,withacorntrainasthecentralmotif.Imagineastagebathedindramatic,warmspotlights,whereacorntrain,renderedasastarksilhouette,movesslowlyacrossthespace.Thevideoexploresthedynamicinterplayoflightandshadowcastbythetrain,creatingabstractpatterns,shapes,andillusionsthatdanceacrossthestage.Thesoundtrackshouldbeambientandminimalist,enhancingtheatmosphericandabstractnatureofthepiece.
(這是一部純粹以視覺和氛圍見長的影像作品,核心聚焦光影的交織互動,以玉米列車為中心意象。試想一個舞臺,被富有戲劇張力的暖調聚光燈籠罩,一列玉米列車化作鮮明的剪影,在空間中緩緩穿行。影片探尋列車投下的光影所形成的動態(tài)呼應——它們在舞臺上舞動,幻化出抽象的圖案、形態(tài)與視覺幻象。配樂應采用氛圍化的極簡風格,以此強化作品的氛圍感與抽象特質。)
視頻輸出的gif截?。?/p>
背后,生成這些視頻的生成模型有什么技術創(chuàng)新點?這要從視頻生成模型在擴展規(guī)模(scale-up)時面臨的挑戰(zhàn)說起,主要原因在于視頻生成需要處理的視頻token長度遠超過文本和圖像,這導致計算資源消耗巨大,難以支撐大規(guī)模模型的訓練與部署。
混合專家模型(MoE)架構作為一種廣泛應用于大型語言模型領域的模型擴展方式,通過選擇專門的專家模型處理輸入的不同部分,擴種模型容量卻不增加額外的計算負載。
1、首個MoE架構的視頻生成模型,高噪+低噪專家模型“搭檔”
萬相2.2模型將MoE架構實現(xiàn)到了視頻生成擴散模型(DiffusionModel)中??紤]擴散模型的去噪過程存在階段性差異,高噪聲階段關注生成視頻的整體布局,低噪聲階段則更關注細節(jié)的完善,萬相2.2模型根據去噪時間步進行了專家模型劃分。
相比傳統(tǒng)架構,通義萬相Wan2.2MoE在減少計算負載的同時有哪些關鍵效果提升?業(yè)界首個使用MoE架構,團隊主要攻克了哪些難點?
通義萬相團隊相關負責人告訴智東西,團隊并不是將語言模型中的MoE直接套用到視頻模型,而是用適配了視頻生成擴散模型的MoE架構。該架構將整個去噪過程劃分為高噪聲和低噪聲兩個階段:在高噪聲階段,模型的任務是生成視頻大體的輪廓與時空布局;在低噪聲階段,模型主要是用來細化細節(jié)紋理和局部。每個階段對應一個不同的專家模型,從而使每個專家專注特定的任務。
“我們的創(chuàng)新點是找到高階噪聲和低噪聲階段的劃分點。不合理的劃分會導致MoE架構的增益效果不足。我們引入了一個簡單而有效的新指標——信噪比來進行指導,根據信噪比范圍對高噪和低噪的時間T進行劃分。通過這種MoE的架構,我們總參數量相比于2.1版本擴大了一倍,但訓練和推理每階段的激活值還是14B,所以整體的計算量和顯存并沒有顯著增加,效果上是有效的提升了運動復雜運動和美學的生存能力?!边@位負責人說。
▲萬相2.2的28B版本由高噪專家模型和低噪專家模型組成
2、數據擴容提高生成質量,支撐與美學精調
較上一代萬相2.1模型,萬相2.2模型的訓練數據實現(xiàn)了顯著擴充與升級,其中圖像數據增加65.6%,視頻數據增加83.2%。數據擴容提升了模型的泛化能力與創(chuàng)作多樣性,使得模型在復雜場景、美學表達和運動生成方面表現(xiàn)更加出色。
模型還引入了專門的美學精調階段,通過細粒度地訓練,使得視頻生成的美學屬性能夠與用戶給定的Prompt(提示詞)相對應。
萬相2.2模型在訓練過程中融合了電影工業(yè)標準的光影塑造、鏡頭構圖法則和色彩心理學體系,將專業(yè)電影導演的美學屬性進行了分類,并細致整理成美學提示詞。
因此,萬相2.2模型能夠根據用戶的美學提示詞準確理解并響應用戶的美學需求。訓練后期,模型還通過強化學習(RL)技術進行進一步的微調,有效地對齊人類審美偏好。
3、高壓縮比視頻生成,5B模型可部署消費級顯卡
為了更高效地部署視頻生成模型,萬相2.2探索了一種模型體積更小、信息下降率更高的技術路徑。
通義萬相Wan2.2開源5B版本消費級顯卡可部署,該設計如何平衡壓縮率與重建質量?
通義萬相團隊相關負責人告訴智東西,為了兼顧性能與部署的便捷性,wan2.2版本開發(fā)了一個5B小參數版。這一版本比2.1版本的14B模型小了一半多。同時團隊采用了自研高壓縮比VAE結構,整體實現(xiàn)了在特征空間上16×16的高壓縮率,是2.1版本壓縮率(8×8)的四倍,從而顯著降低了顯存占用。
為了解決高壓縮比帶來的問題,團隊在這個VAE的訓練中引入了非對稱的編碼結構以及殘差采樣機制;同時其還增加了這個隱空間的維度,把原來的2.1版本的16位增加到了48位。這樣使模型在更大的壓縮率下保持了良好的重建質量。
此次開源的5B版本采用了高壓縮比VAE結構,在視頻生成的特征空間實現(xiàn)了視頻高度(H)、寬度(W)與時間(T)維度上32×32×4的壓縮比,有效減少了顯存占用。5B版本可在消費級顯卡上快速部署,僅需xx顯存即可在xx秒內生成5秒720p視頻。此外,5B版本實現(xiàn)了文本生成視頻和圖像生成視頻的混合訓練,單一模型可滿足兩大核心任務需求。
此次開源中,萬相2.2也同步公開了全新的高壓縮比VAE結構,通過引入殘差采樣結構和非對稱編解碼框架,在更高的信息壓縮率下依然保持了出色的重建質量。
二、60+專業(yè)參數引入,實現(xiàn)電影級美學控制
本次,阿里通義萬相團隊還推出了“電影級美學控制系統(tǒng)”,通過60+專業(yè)參數賦能,將專業(yè)導演的光影、色彩、鏡頭語言裝進生成模型。用戶通過直觀選擇美學關鍵詞,即可智能生成電影質感的視頻畫面。
許多創(chuàng)作者都遇到過這樣的難題:明明腦海中有充滿電影感的畫面,如王家衛(wèi)式的霓虹夜晚、諾蘭式的硬核實景、韋斯·安德森式的對稱構圖,實際生成的效果卻總差強人意——光線平淡像隨手拍、構圖隨意缺乏張力、色調混亂沒有氛圍。
通義萬相團隊認為,根本原因在于,真正的電影感源于對光影、色彩、鏡頭語言三大美學體系的精密控制。這些專業(yè)能力以往需要多年的學習和實踐才能掌握。wan2.2的全新功能可以解決這一核心痛點。
智能美學詞響應是系統(tǒng)的核心創(chuàng)新。用戶無需理解復雜的電影術語,只需在中文界面選擇想要的美學關鍵詞,如黃昏、柔光、側光、冷色調、對稱構圖、特寫等,系統(tǒng)將自動理解并精確響應,在后臺智能調整燈光屬性、攝像機參數、色彩濾鏡等數十項技術指標。
三、可生成復雜運動,強化物理世界還原能力
在文生視頻領域,生成基礎、平緩的動作已非難事,但如何生成大幅度、高復雜度、高細節(jié)的動作,如街舞、體操等,始終是技術躍遷的關鍵挑戰(zhàn)。
Wan2.2模型針對面部表情,手部動作,單人、多人交互、復雜動作等方面進行了專門優(yōu)化,大幅提升了細微表情、靈巧手勢、單人與多人交互、復雜體育運動等生成能力。
比如,Wan2.2構建了人類面部原子動作和情緒表情系統(tǒng)。它不僅能生成如“開懷大笑”、“輕蔑冷笑”、“驚恐屏息”等典型情緒表達,更能細膩刻畫“羞澀微笑中的臉頰微紅”、“思考時不經意的挑眉”、“強忍淚水時的嘴唇顫抖”等復雜微表情,從而精準傳達復雜的人物情緒與內心狀態(tài)。
比如,Wan2.2還構建了豐富的手部動作系統(tǒng),能夠生成從力量傳遞的基礎物理操作、精細器具交互的復雜控制,到蘊含文化語義的手勢符號體系,乃至專業(yè)領域的精密動作范式等手部動作。
此外值得一提的是,Wan2.2模型針對多項基礎物理定律與現(xiàn)象進行了優(yōu)化。這包括對力學、光學以及流體力學和常見物理狀態(tài)變化的學習,力求構建高度真實的物理基礎。
在復雜動態(tài)場景的處理上,Wan2.2專門優(yōu)化了多目標生成與交互場景。它能夠穩(wěn)定地生成多個獨立物體或角色同時進行的復雜動作及其相互影響。此外,Wan2.2對復雜空間關系的理解與呈現(xiàn)也得到大幅增強,能夠精確理解物體在三維空間中的相對位置、距離、深度、遮擋的空間結構變化。
結語:突破視頻模型規(guī)模瓶頸,推動AI視頻生成專業(yè)化演進
Wan2.2首創(chuàng)MoE架構視頻生成模型,為突破視頻模型規(guī)模瓶頸提供了新路徑;5B版本大幅降低高質量視頻生成門檻,加速生成式AI工具普及。
“電影級美學控制”將專業(yè)影視標準體系化融入AI,有望推動AI視頻生成工具向更加專業(yè)化的方向發(fā)展,助廣告、影視等行業(yè)高效產出專業(yè)內容;其復雜運動與物理還原能力的提升,顯著增強了生成視頻的真實感,為教育、仿真等多領域應用奠定基礎。
8本“神豪文”我不喜歡錢,錢對我來說只是一個數據
十大非常好看的神豪流小說,揮金如土,豪放不羈
五十本2016年完本的高口碑小說合集,強烈推薦各位書友收藏起來!