本文來源:時(shí)代周報(bào)作者:雨辰
在AIGC技術(shù)快速迭代的當(dāng)下,圖生視頻正在從實(shí)驗(yàn)室走進(jìn)創(chuàng)作室、工作坊和工業(yè)一線。
2025世界人工智能大會(huì)(WAIC2025)期間,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華博士在接受時(shí)代周報(bào)等媒體采訪時(shí),深入剖析了多模態(tài)大模型的演進(jìn)趨勢(shì)、技術(shù)挑戰(zhàn)與商湯的戰(zhàn)略布局。他強(qiáng)調(diào):“多模態(tài)能力是通向通用人工智能(AGI)的必經(jīng)之路?!?/p>
今年5月,CreateAI發(fā)布《多模態(tài)生成技術(shù)在動(dòng)畫制作領(lǐng)域的應(yīng)用與發(fā)展白皮書》,該報(bào)告首次以中國(guó)動(dòng)漫電影《哪吒2》為案例,結(jié)合權(quán)威數(shù)據(jù),揭示了AI在激發(fā)創(chuàng)意與優(yōu)化流程方面如何實(shí)現(xiàn)“降本增效”。
林達(dá)華認(rèn)為,生成式AI的未來,不應(yīng)僅僅追求“從文字直接生成圖像或視頻”的技術(shù)炫技,而應(yīng)聚焦于創(chuàng)作者意圖與結(jié)果之間的精準(zhǔn)對(duì)接?!癆IGC的終極形態(tài),是一個(gè)真正服務(wù)創(chuàng)作過程的交互工具?!?/p>
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華博士
時(shí)代周報(bào):從技術(shù)角度來看,在視頻生成過程中,如何實(shí)現(xiàn)對(duì)空間結(jié)構(gòu)和物理邏輯的有效把控?
林達(dá)華:商湯很早就布局了數(shù)字人、三維建模等方向,因此在三維空間建構(gòu)方面積累深厚。在Sora引發(fā)關(guān)注時(shí),我們也研究了它的視頻質(zhì)量,的確在視覺效果上令人驚艷,但它在物理規(guī)律的掌握上存在明顯不足——它采用的是基于時(shí)間的一幀幀生成邏輯,本質(zhì)上并不具備三維結(jié)構(gòu)的建模與控制能力。相比之下,商湯內(nèi)部一直在探索如何將三維結(jié)構(gòu)能力應(yīng)用于視頻合成,讓生成視頻在空間結(jié)構(gòu)和物理邏輯上都更加真實(shí)可控。
這一優(yōu)勢(shì)也體現(xiàn)在我們參與的奧運(yùn)場(chǎng)景應(yīng)用中。例如在去年奧運(yùn)會(huì)乒乓球等項(xiàng)目中,我們把三維的結(jié)構(gòu)的這種信號(hào),用于控制視頻的生成,使得它生成的結(jié)果符合物理的結(jié)構(gòu)、物理的規(guī)律。成功實(shí)現(xiàn)對(duì)球拍與球體軌跡的精準(zhǔn)還原,為賽事回放與輔助判罰提供了強(qiáng)有力的技術(shù)支持。
時(shí)代周報(bào):在實(shí)際運(yùn)用中,視頻生成結(jié)果“符合物理邏輯”有多重要?
林達(dá)華:這是我們高度重視的關(guān)鍵能力。生成內(nèi)容不僅要“看起來真實(shí)”,更要“邏輯上成立”。例如,商湯的“開悟”世界模型,在某種意義上,也可被視為一種視頻生成模型,但它對(duì)三維結(jié)構(gòu)生成的準(zhǔn)確性和物理性的要求極為嚴(yán)格。若生成的結(jié)果不符合物理規(guī)律,將其用于駕駛訓(xùn)練,將導(dǎo)致災(zāi)難性的后果。所以,相較于一些AI公司追求生成畫面越“炫”越好,商湯更強(qiáng)調(diào)結(jié)果的正確性:我們生成的畫面必須符合物理規(guī)律、空間邏輯,并具備可解釋性。
時(shí)代周報(bào):圖生視頻較文生視頻有哪些提升?圖生視頻具體有哪些典型應(yīng)用場(chǎng)景?在哪些環(huán)節(jié)真正能發(fā)揮價(jià)值?
林達(dá)華:相較于文生視頻,圖生視頻顯然具備更堅(jiān)實(shí)的依托。以文字為例,若要生成一只在空中飛翔的鳥,單憑文字描述,系統(tǒng)難以構(gòu)思出豐富的細(xì)節(jié)。然而,若有一張圖片作為基礎(chǔ),生成的結(jié)果便會(huì)日新月異。例如,要求系統(tǒng)生成“我媽媽微笑的照片”,若系統(tǒng)未曾見過你母親,又怎能憑空創(chuàng)造?顯然,必須有一張實(shí)際圖像作為參考。因此,我認(rèn)為真正的個(gè)性化生成,不應(yīng)僅依賴文字描述,而需以真實(shí)影像為支撐,方能實(shí)現(xiàn)這一可能性。
從圖生視頻的角度來看,最直接的莫過于C端應(yīng)用場(chǎng)景。假設(shè)你家中存有大量照片,希望讓它們“動(dòng)”起來,這無疑是一個(gè)極具吸引力的創(chuàng)意。早期,我的團(tuán)隊(duì)開發(fā)了AnimateDiff,影響力較大。如今,許多后續(xù)的圖生視頻研究都與AnimateDiff有著千絲萬縷的聯(lián)系。我們注意到,這項(xiàng)于2023年開源的技術(shù),被廣泛用于創(chuàng)作各類充滿想象力的視頻,用戶僅需幾張照片便能展開創(chuàng)作。
時(shí)代周報(bào):圖生視頻的價(jià)值在哪里?您怎么看AI和人類創(chuàng)作者的關(guān)系?
林達(dá)華:我們一直認(rèn)為,文生視頻也好,圖生視頻也好,都不是生成式AI的終極形態(tài)。真正的理想狀態(tài),是將創(chuàng)作者的意圖與生成過程深度融合,把AI當(dāng)作一個(gè)真正服務(wù)創(chuàng)作流程的“工具”。
在我理解,包括我們剛剛發(fā)布的視頻平臺(tái)上的SekoAI,它是一個(gè)交互式創(chuàng)作工具,我們將視頻的制作視為一種創(chuàng)作,而不是僅僅輸入一句話后就不管不顧,等待它生成一個(gè)結(jié)果。這個(gè)結(jié)果很可能并不符合你的預(yù)期,也不一定能直接使用。
真正有價(jià)值的是,它能大幅減少你的工作量,同時(shí)你仍能對(duì)最終的生成內(nèi)容進(jìn)行把控。當(dāng)發(fā)現(xiàn)生成內(nèi)容不合適時(shí),你可以指導(dǎo)它進(jìn)行修改,掌控生成的脈絡(luò),這就是交互式生成的核心所在。