本文來源:時代周報作者:雨辰
在AIGC技術(shù)快速迭代的當(dāng)下,圖生視頻正在從實驗室走進(jìn)創(chuàng)作室、工作坊和工業(yè)一線。
2025世界人工智能大會(WAIC2025)期間,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華博士在接受時代周報等媒體采訪時,深入剖析了多模態(tài)大模型的演進(jìn)趨勢、技術(shù)挑戰(zhàn)與商湯的戰(zhàn)略布局。他強調(diào):“多模態(tài)能力是通向通用人工智能(AGI)的必經(jīng)之路。”
今年5月,CreateAI發(fā)布《多模態(tài)生成技術(shù)在動畫制作領(lǐng)域的應(yīng)用與發(fā)展白皮書》,該報告首次以中國動漫電影《哪吒2》為案例,結(jié)合權(quán)威數(shù)據(jù),揭示了AI在激發(fā)創(chuàng)意與優(yōu)化流程方面如何實現(xiàn)“降本增效”。
林達(dá)華認(rèn)為,生成式AI的未來,不應(yīng)僅僅追求“從文字直接生成圖像或視頻”的技術(shù)炫技,而應(yīng)聚焦于創(chuàng)作者意圖與結(jié)果之間的精準(zhǔn)對接?!癆IGC的終極形態(tài),是一個真正服務(wù)創(chuàng)作過程的交互工具?!?/p>
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華博士
時代周報:從技術(shù)角度來看,在視頻生成過程中,如何實現(xiàn)對空間結(jié)構(gòu)和物理邏輯的有效把控?
林達(dá)華:商湯很早就布局了數(shù)字人、三維建模等方向,因此在三維空間建構(gòu)方面積累深厚。在Sora引發(fā)關(guān)注時,我們也研究了它的視頻質(zhì)量,的確在視覺效果上令人驚艷,但它在物理規(guī)律的掌握上存在明顯不足——它采用的是基于時間的一幀幀生成邏輯,本質(zhì)上并不具備三維結(jié)構(gòu)的建模與控制能力。相比之下,商湯內(nèi)部一直在探索如何將三維結(jié)構(gòu)能力應(yīng)用于視頻合成,讓生成視頻在空間結(jié)構(gòu)和物理邏輯上都更加真實可控。
這一優(yōu)勢也體現(xiàn)在我們參與的奧運場景應(yīng)用中。例如在去年奧運會乒乓球等項目中,我們把三維的結(jié)構(gòu)的這種信號,用于控制視頻的生成,使得它生成的結(jié)果符合物理的結(jié)構(gòu)、物理的規(guī)律。成功實現(xiàn)對球拍與球體軌跡的精準(zhǔn)還原,為賽事回放與輔助判罰提供了強有力的技術(shù)支持。
時代周報:在實際運用中,視頻生成結(jié)果“符合物理邏輯”有多重要?
林達(dá)華:這是我們高度重視的關(guān)鍵能力。生成內(nèi)容不僅要“看起來真實”,更要“邏輯上成立”。例如,商湯的“開悟”世界模型,在某種意義上,也可被視為一種視頻生成模型,但它對三維結(jié)構(gòu)生成的準(zhǔn)確性和物理性的要求極為嚴(yán)格。若生成的結(jié)果不符合物理規(guī)律,將其用于駕駛訓(xùn)練,將導(dǎo)致災(zāi)難性的后果。所以,相較于一些AI公司追求生成畫面越“炫”越好,商湯更強調(diào)結(jié)果的正確性:我們生成的畫面必須符合物理規(guī)律、空間邏輯,并具備可解釋性。
時代周報:圖生視頻較文生視頻有哪些提升?圖生視頻具體有哪些典型應(yīng)用場景?在哪些環(huán)節(jié)真正能發(fā)揮價值?
林達(dá)華:相較于文生視頻,圖生視頻顯然具備更堅實的依托。以文字為例,若要生成一只在空中飛翔的鳥,單憑文字描述,系統(tǒng)難以構(gòu)思出豐富的細(xì)節(jié)。然而,若有一張圖片作為基礎(chǔ),生成的結(jié)果便會日新月異。例如,要求系統(tǒng)生成“我媽媽微笑的照片”,若系統(tǒng)未曾見過你母親,又怎能憑空創(chuàng)造?顯然,必須有一張實際圖像作為參考。因此,我認(rèn)為真正的個性化生成,不應(yīng)僅依賴文字描述,而需以真實影像為支撐,方能實現(xiàn)這一可能性。
從圖生視頻的角度來看,最直接的莫過于C端應(yīng)用場景。假設(shè)你家中存有大量照片,希望讓它們“動”起來,這無疑是一個極具吸引力的創(chuàng)意。早期,我的團隊開發(fā)了AnimateDiff,影響力較大。如今,許多后續(xù)的圖生視頻研究都與AnimateDiff有著千絲萬縷的聯(lián)系。我們注意到,這項于2023年開源的技術(shù),被廣泛用于創(chuàng)作各類充滿想象力的視頻,用戶僅需幾張照片便能展開創(chuàng)作。
時代周報:圖生視頻的價值在哪里?您怎么看AI和人類創(chuàng)作者的關(guān)系?
林達(dá)華:我們一直認(rèn)為,文生視頻也好,圖生視頻也好,都不是生成式AI的終極形態(tài)。真正的理想狀態(tài),是將創(chuàng)作者的意圖與生成過程深度融合,把AI當(dāng)作一個真正服務(wù)創(chuàng)作流程的“工具”。
在我理解,包括我們剛剛發(fā)布的視頻平臺上的SekoAI,它是一個交互式創(chuàng)作工具,我們將視頻的制作視為一種創(chuàng)作,而不是僅僅輸入一句話后就不管不顧,等待它生成一個結(jié)果。這個結(jié)果很可能并不符合你的預(yù)期,也不一定能直接使用。
真正有價值的是,它能大幅減少你的工作量,同時你仍能對最終的生成內(nèi)容進(jìn)行把控。當(dāng)發(fā)現(xiàn)生成內(nèi)容不合適時,你可以指導(dǎo)它進(jìn)行修改,掌控生成的脈絡(luò),這就是交互式生成的核心所在。
「書荒救星」10本主角歐氣爆棚的網(wǎng)游小說!天命之子玩轉(zhuǎn)數(shù)據(jù)世界
?《重生之幸運值Max》作者:錦鯉轉(zhuǎn)世三大爽點:雙重生+氣運疊加+因果律武器男主帶著滿級幸運值回到游戲開服日,隨手接的跑腿任務(wù)竟是SSS級連環(huán)劇情!看歐皇如何用新手木劍捅穿終極副本,連NPC都忍不住吐槽:quot;這屆冒險者開掛!quot;?《全服都以為我是GM小號》作者:玄不改非特色玩法:官方認(rèn)證"游戲平衡破壞者"頂著紅 小說:全民網(wǎng)游我滿幸運值,神裝爆不停,虐怪如切菜今日推薦:《網(wǎng)游之開局滿級幸運值》作者:咬筆酌文|-。點擊文末超鏈接開始觀看吧~第241章吞噬腰帶影襲!“叮!觸發(fā)力王護手,四倍傷害觸發(fā)——?!薄岸?!觸發(fā)符文錯亂,力量屬性爆發(fā)?!薄岸?!觸發(fā)暴擊,傷害翻倍-?!薄岸?!造成76181點傷害?!币粋€高額傷害讓希望你能滿意_——。讓人欲罷不能的小說《網(wǎng)游之開局滿級幸運值》,你想要的全都有