Wan2.2的重點絕非畫質(zhì)的提升?這篇文章將從MoE專家模型架構(gòu)的誕生,發(fā)展,以及Wan2.2的MoE的不同點。讓各位產(chǎn)品經(jīng)理們對未來AI模型發(fā)展的思路和脈絡(luò)有更深入的認識。
Wan2.2開源地址
GitHub:https://github.com/Wan-Video/Wan2.2
HuggingFace:https://huggingface.co/Wan-AI
在本月Wan2.2正式開源了,憑借強大的影視級美學(xué)控制能力、高效的復(fù)雜運動處理以及靈活的語義遵循功能,為創(chuàng)作者提供了強大的AI視頻生成工具。穩(wěn)坐開源社區(qū)AI視頻領(lǐng)域頭把交椅。乍一看在現(xiàn)在這個AI技術(shù)大爆發(fā)的時期好像并沒有什么兩點。但是如果關(guān)注模型本身的實現(xiàn)技術(shù),你會發(fā)現(xiàn)Wan2.2的強大有著兩處非常值得研究的地方。
高壓縮比VAE技術(shù):
Wan2.2采用的高壓縮比VAE技術(shù),能夠在保持數(shù)據(jù)質(zhì)量的前提下,大幅減少數(shù)據(jù)在顯存中的占用。這就像是把一個大箱子壓縮成一個小箱子,但里面的東西依然完整,從而讓顯存資源得到更高效的利用。這使得Wan2.2可以高效率的在消費級顯卡上部署并且生成創(chuàng)作者想要的視頻內(nèi)容。
高頻與低頻MOE專家模型技術(shù):
Wan2.2的高頻MoE模型擅長細節(jié)優(yōu)化,如紋理清晰度、光影效果和微表情捕捉,讓畫面更逼真生動;低頻MoE模型則負責(zé)整體布局,包括場景構(gòu)建、主體運動規(guī)劃和長時序動作連貫性,確保視頻整體流暢自然。兩者協(xié)同工作,高效平衡細節(jié)與整體,生成高質(zhì)量視頻。
我們這篇文章將會終點從MOE專家模型方面入手,層層拆解。從MoE的誕生,發(fā)展以及Wan2.2的MoE到底有什么特別的地方。廢話不多說,我們現(xiàn)在開始:
1.MoE專家模型是什么
MoE模型就像個超級團隊,各專家身懷絕技,“指揮官”按需挑人,高效搞定任務(wù)。
MoE(MixtureofExperts,MoE)是什么:MoE模型就像一個由多個專家組成的超級團隊,每個專家各有所長,而“指揮官”(門控機制)會根據(jù)任務(wù)特點,精準地挑選最適合的專家來完成任務(wù),既避免了“一個人干所有活”的低效,又解決了單一模型面對復(fù)雜任務(wù)時的力不從心,讓整個團隊的協(xié)作更加高效、靈活,完美地解決了傳統(tǒng)模型在復(fù)雜任務(wù)面前效率低、能力有限的難題。
補充:MoE的誕生歷史
1991年,Jordan和Jacobs提出MoE架構(gòu),借鑒集成學(xué)習(xí),用多個專家模型協(xié)同工作,門控機制動態(tài)選擇專家,提升效率和性能。
2010年后,深度學(xué)習(xí)快速發(fā)展,MoE架構(gòu)與深度學(xué)習(xí)技術(shù)結(jié)合,成為研究熱點、
2017年,Google將MoE架構(gòu)引入Transformer,進一步提升了模型性能,解決了長距離依賴問題。
2021年,Google發(fā)布GShard,優(yōu)化了MoE架構(gòu)在大規(guī)模分布式訓(xùn)練中的性能,使其能夠處理更大規(guī)模的數(shù)據(jù)。
DeepSeek-R1模型于2025年1月20日正式發(fā)布,成為開源推理模型
2.Wan2.2采用MoE模型為什么值得關(guān)注
Wan2.2是第一個將MoE引入擴散模型完成商業(yè)落地的開源模型。這將是人人都可以在本地部署的視頻模型。
首先我們先來了解傳統(tǒng)“MoE大語言模型”和“MoE擴散模型”之間工作方式的區(qū)別
傳統(tǒng)的MoE大語言模型:
傳統(tǒng)MoE就像請一群專家開會,但每次只讓最懂的那一兩個發(fā)言,既省錢又高效。
傳統(tǒng)的大語言模型(LLM)中的MoE(MixtureofExperts,混合專家模型)是一種通過稀疏激活參數(shù)來擴展模型容量的技術(shù)。其核心思想是:將一個大模型拆分成多個“專家”子網(wǎng)絡(luò),每次推理時只激活少數(shù)幾個專家,從而在保持計算效率的同時大幅提升模型容量。
MoE擴散模型:
想象你在修一張被雨滴模糊的照片,但雨滴有大有?。合葷娖皾姶笥辏ù笤肼暎傧旅辏ㄐ≡肼暎?。擴散模型的MoE就像請來一組“修圖師傅”,每人專門對付一種雨點大小。每次輪到當前雨點時,一個“小管家”只看現(xiàn)在雨多大,立刻挑最擅長這種雨點的師傅出手,其他師傅喝茶休息。
擴散模型中的MoE(Mixture-of-Experts)并非簡單地把Transformer-MoE原封不動搬過來,而是圍繞“時間步條件化”與“去噪專家專業(yè)化”兩個核心需求重新設(shè)計的。
時間步條件化:“現(xiàn)在進行到第幾步”當成提示牌——雨下得越大,就去找最會修暴雨圖的師傅;雨小了,就換修細霧圖的師傅。每一步都先看“進度條”,再決定叫誰來干活。
去噪專家專業(yè)化:把“修圖師傅”按雨點大小分組,暴雨師傅只練暴雨圖,毛毛雨師傅只練毛毛雨圖,各練各的絕活,互不摻和。
總結(jié):傳統(tǒng)MoE大語言模型“按問題內(nèi)容找人”,一個問題對應(yīng)一個專家模型進行解決。擴散MoE“按照事情發(fā)展時間找人”,就像下雨一樣剛開始傾盆大雨交給老師傅模型,雨變小后交給小師傅模型。
Wan2.2采用MoE擴散模型帶來的改變和意義
畫質(zhì)并沒有下降:落地性和商業(yè)化質(zhì)量可保證。
生成速度提升:提速約1.6X,同樣的視頻在更小算力的顯卡上生成效率反而更高。
顯存與算力要求大幅度下降:同一畫質(zhì)下從≈21GB降到≈13GB,RTX4090/3090這類消費級24GB卡就能“一人吃飽”。推理FLOPs因稀疏專家只激活2/8而砍掉約35%,生成720p/24fps片段時,原先要45秒,現(xiàn)在28秒完成——單卡即可本地跑,無需A100/多卡并行。
3.Wan2.2可暢想的落地場景
Wan2.2已經(jīng)把“拍電影的AI劇組”打包進一臺顯卡里,場景幾乎可以從個人Vlog到商業(yè)大片都能覆蓋。
個人/UP主短視頻
設(shè)備:RTX409024GB單卡即可跑TI2V-5B,2.5分鐘出5秒720p/24fps短片
電商廣告小劇組
方案:TI2V-5B+LoRA微調(diào)自家商品→8小時批量生成100條不同機位、光影的SKU視頻,節(jié)省拍片預(yù)算90%。
教育課件動效
場景:K12/大學(xué)MOOC,把PPT導(dǎo)出圖片→I2V-A14B轉(zhuǎn)成5秒動畫演示,教師無需動畫基礎(chǔ)。
游戲過場&概念PV
方案:T2V-A14B生成480p原型→美術(shù)再精修
影視Pre-viz(預(yù)覽分鏡)
場景:網(wǎng)劇/廣告片,導(dǎo)演直接寫「手持跟拍、逆光、暖色、長焦」→Wan2.2即時出5秒動態(tài)分鏡,省去故事板手繪。
直播虛擬背景
場景:帶貨直播間,TI2V-5B實時循環(huán)3秒背景視頻,4090顯卡占用
一句話總結(jié):從6GB顯存筆記本到80GB工作站,Wan2.2給出了“能跑就能拍電影”的階梯式方案,真正把AI視頻寫進了個人創(chuàng)作者、中小團隊、甚至傳統(tǒng)影視工業(yè)的日常流程。
延伸閱讀:與 AI產(chǎn)品經(jīng)理“技術(shù)”: Wan22開源 最大亮點并非畫質(zhì) 擴散,MoE亮點揭秘 的相關(guān)文章