Wan2.2的重點(diǎn)絕非畫質(zhì)的提升?這篇文章將從MoE專家模型架構(gòu)的誕生,發(fā)展,以及Wan2.2的MoE的不同點(diǎn)。讓各位產(chǎn)品經(jīng)理們對(duì)未來(lái)AI模型發(fā)展的思路和脈絡(luò)有更深入的認(rèn)識(shí)。
Wan2.2開源地址
GitHub:https://github.com/Wan-Video/Wan2.2
HuggingFace:https://huggingface.co/Wan-AI
在本月Wan2.2正式開源了,憑借強(qiáng)大的影視級(jí)美學(xué)控制能力、高效的復(fù)雜運(yùn)動(dòng)處理以及靈活的語(yǔ)義遵循功能,為創(chuàng)作者提供了強(qiáng)大的AI視頻生成工具。穩(wěn)坐開源社區(qū)AI視頻領(lǐng)域頭把交椅。乍一看在現(xiàn)在這個(gè)AI技術(shù)大爆發(fā)的時(shí)期好像并沒(méi)有什么兩點(diǎn)。但是如果關(guān)注模型本身的實(shí)現(xiàn)技術(shù),你會(huì)發(fā)現(xiàn)Wan2.2的強(qiáng)大有著兩處非常值得研究的地方。
高壓縮比VAE技術(shù):
Wan2.2采用的高壓縮比VAE技術(shù),能夠在保持?jǐn)?shù)據(jù)質(zhì)量的前提下,大幅減少數(shù)據(jù)在顯存中的占用。這就像是把一個(gè)大箱子壓縮成一個(gè)小箱子,但里面的東西依然完整,從而讓顯存資源得到更高效的利用。這使得Wan2.2可以高效率的在消費(fèi)級(jí)顯卡上部署并且生成創(chuàng)作者想要的視頻內(nèi)容。
高頻與低頻MOE專家模型技術(shù):
Wan2.2的高頻MoE模型擅長(zhǎng)細(xì)節(jié)優(yōu)化,如紋理清晰度、光影效果和微表情捕捉,讓畫面更逼真生動(dòng);低頻MoE模型則負(fù)責(zé)整體布局,包括場(chǎng)景構(gòu)建、主體運(yùn)動(dòng)規(guī)劃和長(zhǎng)時(shí)序動(dòng)作連貫性,確保視頻整體流暢自然。兩者協(xié)同工作,高效平衡細(xì)節(jié)與整體,生成高質(zhì)量視頻。
我們這篇文章將會(huì)終點(diǎn)從MOE專家模型方面入手,層層拆解。從MoE的誕生,發(fā)展以及Wan2.2的MoE到底有什么特別的地方。廢話不多說(shuō),我們現(xiàn)在開始:
1.MoE專家模型是什么
MoE模型就像個(gè)超級(jí)團(tuán)隊(duì),各專家身懷絕技,“指揮官”按需挑人,高效搞定任務(wù)。
MoE(MixtureofExperts,MoE)是什么:MoE模型就像一個(gè)由多個(gè)專家組成的超級(jí)團(tuán)隊(duì),每個(gè)專家各有所長(zhǎng),而“指揮官”(門控機(jī)制)會(huì)根據(jù)任務(wù)特點(diǎn),精準(zhǔn)地挑選最適合的專家來(lái)完成任務(wù),既避免了“一個(gè)人干所有活”的低效,又解決了單一模型面對(duì)復(fù)雜任務(wù)時(shí)的力不從心,讓整個(gè)團(tuán)隊(duì)的協(xié)作更加高效、靈活,完美地解決了傳統(tǒng)模型在復(fù)雜任務(wù)面前效率低、能力有限的難題。
補(bǔ)充:MoE的誕生歷史
1991年,Jordan和Jacobs提出MoE架構(gòu),借鑒集成學(xué)習(xí),用多個(gè)專家模型協(xié)同工作,門控機(jī)制動(dòng)態(tài)選擇專家,提升效率和性能。
2010年后,深度學(xué)習(xí)快速發(fā)展,MoE架構(gòu)與深度學(xué)習(xí)技術(shù)結(jié)合,成為研究熱點(diǎn)、
2017年,Google將MoE架構(gòu)引入Transformer,進(jìn)一步提升了模型性能,解決了長(zhǎng)距離依賴問(wèn)題。
2021年,Google發(fā)布GShard,優(yōu)化了MoE架構(gòu)在大規(guī)模分布式訓(xùn)練中的性能,使其能夠處理更大規(guī)模的數(shù)據(jù)。
DeepSeek-R1模型于2025年1月20日正式發(fā)布,成為開源推理模型
2.Wan2.2采用MoE模型為什么值得關(guān)注
Wan2.2是第一個(gè)將MoE引入擴(kuò)散模型完成商業(yè)落地的開源模型。這將是人人都可以在本地部署的視頻模型。
首先我們先來(lái)了解傳統(tǒng)“MoE大語(yǔ)言模型”和“MoE擴(kuò)散模型”之間工作方式的區(qū)別
傳統(tǒng)的MoE大語(yǔ)言模型:
傳統(tǒng)MoE就像請(qǐng)一群專家開會(huì),但每次只讓最懂的那一兩個(gè)發(fā)言,既省錢又高效。
傳統(tǒng)的大語(yǔ)言模型(LLM)中的MoE(MixtureofExperts,混合專家模型)是一種通過(guò)稀疏激活參數(shù)來(lái)擴(kuò)展模型容量的技術(shù)。其核心思想是:將一個(gè)大模型拆分成多個(gè)“專家”子網(wǎng)絡(luò),每次推理時(shí)只激活少數(shù)幾個(gè)專家,從而在保持計(jì)算效率的同時(shí)大幅提升模型容量。
MoE擴(kuò)散模型:
想象你在修一張被雨滴模糊的照片,但雨滴有大有?。合葷娖皾姶笥辏ù笤肼暎傧旅辏ㄐ≡肼暎?。擴(kuò)散模型的MoE就像請(qǐng)來(lái)一組“修圖師傅”,每人專門對(duì)付一種雨點(diǎn)大小。每次輪到當(dāng)前雨點(diǎn)時(shí),一個(gè)“小管家”只看現(xiàn)在雨多大,立刻挑最擅長(zhǎng)這種雨點(diǎn)的師傅出手,其他師傅喝茶休息。
擴(kuò)散模型中的MoE(Mixture-of-Experts)并非簡(jiǎn)單地把Transformer-MoE原封不動(dòng)搬過(guò)來(lái),而是圍繞“時(shí)間步條件化”與“去噪專家專業(yè)化”兩個(gè)核心需求重新設(shè)計(jì)的。
時(shí)間步條件化:“現(xiàn)在進(jìn)行到第幾步”當(dāng)成提示牌——雨下得越大,就去找最會(huì)修暴雨圖的師傅;雨小了,就換修細(xì)霧圖的師傅。每一步都先看“進(jìn)度條”,再?zèng)Q定叫誰(shuí)來(lái)干活。
去噪專家專業(yè)化:把“修圖師傅”按雨點(diǎn)大小分組,暴雨師傅只練暴雨圖,毛毛雨師傅只練毛毛雨圖,各練各的絕活,互不摻和。
總結(jié):傳統(tǒng)MoE大語(yǔ)言模型“按問(wèn)題內(nèi)容找人”,一個(gè)問(wèn)題對(duì)應(yīng)一個(gè)專家模型進(jìn)行解決。擴(kuò)散MoE“按照事情發(fā)展時(shí)間找人”,就像下雨一樣剛開始傾盆大雨交給老師傅模型,雨變小后交給小師傅模型。
Wan2.2采用MoE擴(kuò)散模型帶來(lái)的改變和意義
畫質(zhì)并沒(méi)有下降:落地性和商業(yè)化質(zhì)量可保證。
生成速度提升:提速約1.6X,同樣的視頻在更小算力的顯卡上生成效率反而更高。
顯存與算力要求大幅度下降:同一畫質(zhì)下從≈21GB降到≈13GB,RTX4090/3090這類消費(fèi)級(jí)24GB卡就能“一人吃飽”。推理FLOPs因稀疏專家只激活2/8而砍掉約35%,生成720p/24fps片段時(shí),原先要45秒,現(xiàn)在28秒完成——單卡即可本地跑,無(wú)需A100/多卡并行。
3.Wan2.2可暢想的落地場(chǎng)景
Wan2.2已經(jīng)把“拍電影的AI劇組”打包進(jìn)一臺(tái)顯卡里,場(chǎng)景幾乎可以從個(gè)人Vlog到商業(yè)大片都能覆蓋。
個(gè)人/UP主短視頻
設(shè)備:RTX409024GB單卡即可跑TI2V-5B,2.5分鐘出5秒720p/24fps短片
電商廣告小劇組
方案:TI2V-5B+LoRA微調(diào)自家商品→8小時(shí)批量生成100條不同機(jī)位、光影的SKU視頻,節(jié)省拍片預(yù)算90%。
教育課件動(dòng)效
場(chǎng)景:K12/大學(xué)MOOC,把PPT導(dǎo)出圖片→I2V-A14B轉(zhuǎn)成5秒動(dòng)畫演示,教師無(wú)需動(dòng)畫基礎(chǔ)。
游戲過(guò)場(chǎng)&概念PV
方案:T2V-A14B生成480p原型→美術(shù)再精修
影視Pre-viz(預(yù)覽分鏡)
場(chǎng)景:網(wǎng)劇/廣告片,導(dǎo)演直接寫「手持跟拍、逆光、暖色、長(zhǎng)焦」→Wan2.2即時(shí)出5秒動(dòng)態(tài)分鏡,省去故事板手繪。
直播虛擬背景
場(chǎng)景:帶貨直播間,TI2V-5B實(shí)時(shí)循環(huán)3秒背景視頻,4090顯卡占用
一句話總結(jié):從6GB顯存筆記本到80GB工作站,Wan2.2給出了“能跑就能拍電影”的階梯式方案,真正把AI視頻寫進(jìn)了個(gè)人創(chuàng)作者、中小團(tuán)隊(duì)、甚至傳統(tǒng)影視工業(yè)的日常流程。
醫(yī)妃文:她被夫君休棄,自爆穿到清朝成了神醫(yī),被太子殿下寵入骨
推薦五本量大質(zhì)優(yōu)的小說(shuō),你值得擁有
醫(yī)妃:她是醫(yī)圣第8代傳人,下山中途隨手救下戰(zhàn)王,被他深情寵溺一生