作者:周源/華爾街見聞
7月28日,阿里巴巴開源電影級視頻生成模型通義萬相Wan2.2,模型單次可生成5秒的高清視頻。
Wan2.2此次共開源文生視頻(Wan2.2-T2V-A14B)、圖生視頻(Wan2.2-I2V-A14B)和統(tǒng)一視頻生成(Wan2.2-TI2V-5B)三款模型。
其中,文生視頻模型和圖生視頻模型均為業(yè)界首次使用MoE架構(gòu)(混合專家模型:MixtureofExperts),總參數(shù)量為27B,激活參數(shù)量高達(dá)14B,均由高噪聲專家模型和低噪專家模型組成,分別負(fù)責(zé)視頻的整體布局和細(xì)節(jié)完善,在同參數(shù)規(guī)模下,可節(jié)省約50%的計(jì)算資源消耗。
這是阿里在AI視頻生成領(lǐng)域投下的一枚重要棋子。作為國內(nèi)科技巨頭在生成式AI賽道的最新動(dòng)作,這樣的技術(shù)路徑與開源策略既體現(xiàn)了行業(yè)發(fā)展趨勢,也折射出阿里在技術(shù)競爭中的布局考量。
技術(shù)架構(gòu)差異化嘗試
通義萬相Wan2.2此次開源的三款模型中,文生視頻與圖生視頻模型采用的MoE架構(gòu)是最受行業(yè)關(guān)注的技術(shù)點(diǎn)。
通過動(dòng)態(tài)選擇部分專家(子模型)參與推理任務(wù),MoE架構(gòu)能提高模型的計(jì)算效率和性能,尤其適用于大型神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練和推理。
這種架構(gòu)并非憑空出現(xiàn),而是在現(xiàn)有視頻生成技術(shù)瓶頸下的針對性設(shè)計(jì):將模型拆分為高噪聲專家模型與低噪專家模型,前者負(fù)責(zé)視頻整體布局,后者專注細(xì)節(jié)完善,形成了分工明確的處理機(jī)制。
從技術(shù)邏輯看,這樣的設(shè)計(jì)直指視頻生成長期存在的效率問題。
傳統(tǒng)模型在處理長時(shí)序視頻時(shí),常因參數(shù)規(guī)模與計(jì)算資源的矛盾,難以兼顧質(zhì)量與效率。
MoE架構(gòu)通過激活參數(shù)的動(dòng)態(tài)調(diào)用,在27B總參數(shù)量級下能實(shí)現(xiàn)14B激活參數(shù)的精準(zhǔn)分配,使得同參數(shù)規(guī)模下計(jì)算資源消耗減少約50%。
這種資源優(yōu)化能力,在當(dāng)前AI大模型訓(xùn)練成本高企的背景下,具備實(shí)際應(yīng)用價(jià)值。
參數(shù)量總規(guī)模27B,激活量高達(dá)14B,激活占比超過50%至51.85%。
如此超高的激活占比是怎么做到的?
首先這并非易事,這需要有高度的模型架構(gòu)設(shè)計(jì)與優(yōu)化能力。就像智譜AI發(fā)布的旗艦?zāi)P虶LM-4.5,激活量占比9%,就能實(shí)現(xiàn)API價(jià)格僅為Claude的10%,原因也是智譜AI擁有對Transformer架構(gòu)持續(xù)積累了長達(dá)4年的優(yōu)化成果。
要構(gòu)建一個(gè)能合理分配不同專家模型職責(zé),確保在不同去噪階段高噪聲專家模型與低噪專家模型有序工作的架構(gòu),需要對視頻生成過程中的數(shù)據(jù)流向、處理邏輯有極為精準(zhǔn)的把握。
同時(shí),在參數(shù)激活的動(dòng)態(tài)管理方面,如何根據(jù)輸入數(shù)據(jù)的特征、去噪任務(wù)的需求,在眾多參數(shù)中準(zhǔn)確激活對應(yīng)的14B參數(shù),避免無效激活造成資源浪費(fèi),還要保證激活參數(shù)間協(xié)同工作的高效性,是研發(fā)團(tuán)隊(duì)面臨的巨大挑戰(zhàn)。
這涉及到復(fù)雜的算法設(shè)計(jì)與大量的實(shí)驗(yàn)調(diào)試,以找到最適合視頻生成任務(wù)的參數(shù)激活策略。換句話說,這需要技術(shù)團(tuán)隊(duì)對模型任務(wù)所需要的數(shù)據(jù)有精確把控,以及為此采取了高效的激活策略和方法。
值得注意的是,MoE架構(gòu)在NLP(自然語言處理)領(lǐng)域已得到較多應(yīng)用,但在視頻生成領(lǐng)域仍屬新鮮事物。
視頻數(shù)據(jù)的時(shí)空復(fù)雜性遠(yuǎn)超文本,如何讓不同專家模型在處理動(dòng)態(tài)畫面時(shí)實(shí)現(xiàn)無縫協(xié)同,是技術(shù)落地的關(guān)鍵。
通義萬相團(tuán)隊(duì)的解決方案是按去噪階段劃分專家職責(zé),這種思路能否成為行業(yè)通用范式,還需接受市場驗(yàn)證。
阿里巴巴選擇開源這三款模型,在商業(yè)策略上頗具深意。
當(dāng)前AI視頻生成領(lǐng)域呈現(xiàn)閉源競賽與開源探索并行的格局,頭部企業(yè)多傾向于將核心模型作為商業(yè)服務(wù)的技術(shù)壁壘,而開源模式則試圖通過生態(tài)共建擴(kuò)大技術(shù)影響力。
從開發(fā)者層面看,Wan2.2的開源提供了一個(gè)可直接上手的技術(shù)樣本。
開發(fā)者可在GitHub、HuggingFace等平臺(tái)獲取模型代碼,這降低了視頻生成技術(shù)的研究門檻。對于中小企業(yè)而言,無需從零構(gòu)建模型,可基于現(xiàn)有框架進(jìn)行二次開發(fā),這在一定程度上會(huì)加速技術(shù)的場景落地。
在行業(yè)競爭維度,此次開源可能加劇視頻生成技術(shù)的迭代速度。此前,國內(nèi)外已有多家企業(yè)推出視頻生成模型,但多以閉源API服務(wù)為主。
通義萬相Wan2.2的開源,相當(dāng)于向行業(yè)公開了部分技術(shù)路徑,其他企業(yè)可能在此基礎(chǔ)上優(yōu)化升級,形成技術(shù)反超。
實(shí)際應(yīng)用潛力與局限
從應(yīng)用場景來看,Wan2.2的5秒高清視頻生成能力,目前更適合作為創(chuàng)意工具而非生產(chǎn)工具。
在影視前期策劃中,創(chuàng)作者可通過文本或圖片快速生成片段,用于可視化創(chuàng)意方案;在廣告行業(yè),可輔助制作產(chǎn)品展示短視頻的初稿。這些場景對視頻時(shí)長要求不高,卻能顯著提升前期溝通效率。
但其局限性也同樣明顯:單次生成5秒高清視頻的時(shí)長,意味著復(fù)雜敘事仍需人工拼接,與“電影級”的實(shí)際生產(chǎn)需求存在差距。
盡管阿里官方表示未來將提升時(shí)長,但視頻生成時(shí)長的延長并非簡單的技術(shù)疊加,而是需要解決更長時(shí)序下的邏輯連貫性、畫面一致性等問題,這對模型的時(shí)空建模能力提出了更高要求。
在美學(xué)控制方面,“電影級美學(xué)控制系統(tǒng)”通過參數(shù)化調(diào)節(jié)光影、色彩的設(shè)計(jì),確實(shí)降低了專業(yè)美學(xué)表達(dá)的門檻。
但這種控制的精準(zhǔn)度仍依賴于提示詞的專業(yè)性,普通用戶若缺乏基礎(chǔ)美學(xué)知識,可能難以充分發(fā)揮其功能。
此外,模型生成的畫面風(fēng)格是否能真正達(dá)到“電影級”,還需專業(yè)創(chuàng)作者的實(shí)際使用反饋來驗(yàn)證。
放在全球AI視頻生成技術(shù)的坐標(biāo)系中,Wan2.2的開源是中國企業(yè)在該領(lǐng)域的一次重要發(fā)聲。
目前,國際范圍內(nèi)已有模型實(shí)現(xiàn)更長時(shí)長的視頻生成,且在畫面真實(shí)感上具備優(yōu)勢。
Wan2.2的特色在于MoE架構(gòu)帶來的資源效率提升,這一差異化路徑能否在激烈競爭中占據(jù)一席之地,取決于其在實(shí)際場景中的落地效果。
對于整個(gè)行業(yè)而言,視頻生成技術(shù)仍處于快速進(jìn)化階段。從文本生成圖像到文本生成視頻,技術(shù)跨越的背后是對算力、數(shù)據(jù)、算法的綜合考驗(yàn)。
Wan2.2的出現(xiàn),本質(zhì)上是這一進(jìn)化過程中的一個(gè)技術(shù)節(jié)點(diǎn),其價(jià)值不在于顛覆行業(yè),而在于為行業(yè)提供了一種新的技術(shù)選擇。
未來,隨著模型時(shí)長的延長、細(xì)節(jié)處理能力的提升,視頻生成技術(shù)可能會(huì)逐步滲透到更多領(lǐng)域。但這一過程需要時(shí)間,且必然伴隨著技術(shù)瓶頸的突破與商業(yè)模式的驗(yàn)證。
對于企業(yè)而言,如何平衡技術(shù)研發(fā)投入與商業(yè)回報(bào),將是比技術(shù)突破更難的課題。
老神醫(yī)弟子秦越進(jìn)城退婚,美女總裁未婚妻竟讓他頭疼不已
十分暢銷的《神醫(yī)從退婚開始》,引人入勝的篇章,引發(fā)集體共鳴!
成名大作《神醫(yī)從退婚開始》,最反套路的片段,一直追文一直爽!