作為Index-AniSora項目的一部分,V3版本在原有基礎(chǔ)上進一步優(yōu)化了生成質(zhì)量、動作流暢度和風格多樣性,為動漫、漫畫及VTuber內(nèi)容創(chuàng)作者提供了更強大的工具。
AniSora支持一鍵生成多種動漫風格的視頻鏡頭,包括番劇片段、國創(chuàng)動畫、漫畫改編、VTuber內(nèi)容、動畫PV、鬼畜(MAD)等。
AniSoraV3基于B站此前開源的CogVideoX-5B和Wan2.1-14B模型,結(jié)合強化學(xué)習(xí)與人類反饋(RLHF)框架,顯著提升了生成視頻的視覺質(zhì)量和動作一致性。其支持一鍵生成多種風格的動漫視頻鏡頭,包括番劇片段、國創(chuàng)動畫、漫畫視頻改編、VTuber內(nèi)容等。
核心升級包括:
時空掩碼模塊(SpatiotemporalMaskModule)優(yōu)化:V3版本增強了時空控制能力,支持更復(fù)雜的動畫任務(wù),如精細的角色表情控制、動態(tài)鏡頭移動和局部圖像引導(dǎo)生成。例如,提示“五位女孩在鏡頭放大時起舞,左手上舉至頭頂再下放至膝蓋”能生成流暢的舞蹈動畫,鏡頭與角色動作同步自然。
數(shù)據(jù)集擴展:V3繼續(xù)依托超過1000萬高質(zhì)量動漫視頻片段(從100萬原始視頻中提?。┻M行訓(xùn)練,新增數(shù)據(jù)清洗流水線,確保生成內(nèi)容的風格一致性和細節(jié)豐富度。
硬件優(yōu)化:V3新增對華為Ascend910BNPU的原生支持,完全基于國產(chǎn)芯片訓(xùn)練,推理速度提升約20%,生成4秒高清視頻僅需2-3分鐘。
多任務(wù)學(xué)習(xí):V3強化了多任務(wù)處理能力,支持從單幀圖像生成視頻、關(guān)鍵幀插值到唇部同步等功能,特別適合漫畫改編和VTuber內(nèi)容創(chuàng)作。
在最新基準測試中,AniSoraV3在VBench和雙盲主觀測試中,角色一致性和動作流暢度均達到業(yè)界頂尖水平(SOTA),尤其在復(fù)雜動作(如違反物理規(guī)律的夸張動漫動作)上表現(xiàn)突出。
V3還引入了首個針對動漫視頻生成的RLHF框架,通過AnimeReward和GAPO等工具對模型進行微調(diào),確保輸出更符合人類審美和動漫風格需求。社區(qū)開發(fā)者已開始基于V3開發(fā)定制化插件,例如增強特定動漫風格(如吉卜力風)的生成效果。
AniSoraV3支持多種動漫風格,包括日本動漫、國產(chǎn)原創(chuàng)動畫、漫畫改編、VTuber內(nèi)容及惡搞動畫(鬼畜動畫),覆蓋90%的動漫視頻應(yīng)用場景。具體應(yīng)用包括:
單圖轉(zhuǎn)視頻:用戶上傳一張高質(zhì)量動漫圖像,配合文本提示(如“角色在向前行駛的車中揮手,頭發(fā)隨風擺動”),即可生成動態(tài)視頻,保持角色細節(jié)和風格一致。
漫畫改編:從漫畫幀生成帶唇部同步和動作的動畫,適合快速制作預(yù)告片或短篇動畫。
VTuber與游戲:支持實時生成角色動畫,助力獨立創(chuàng)作者和游戲開發(fā)者快速測試角色動作。
高分辨率輸出:生成視頻支持高達1080p,確保在社交媒體、流媒體平臺上的專業(yè)呈現(xiàn)。
AIbase測試顯示,V3在生成復(fù)雜場景(如多角色交互、動態(tài)背景)時,相比V2減少了約15%的偽影問題,生成時間縮短至平均2.5分鐘(IT之家注:4秒視頻)。
相比OpenAI的Sora或Kling等通用視頻生成模型,AniSoraV3專注于動漫領(lǐng)域。與字節(jié)跳動的EX-4D相比,AniSoraV3更專注于2D/2.5D動漫風格,而非4D多視角生成。
晚清時期到底有多腐敗?看看曾國藩的年薪工資就懂了,不亡國才怪
中國歷史上6位做出卓越貢獻的宰相:李斯的排名令人難以置信!
曾國藩的四字箴言帶你走出人生困境