本文來源:時代周報作者:雨辰
在AIGC技術(shù)快速迭代的當下,圖生視頻正在從實驗室走進創(chuàng)作室、工作坊和工業(yè)一線。
2025世界人工智能大會(WAIC2025)期間,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學家林達華博士在接受時代周報等媒體采訪時,深入剖析了多模態(tài)大模型的演進趨勢、技術(shù)挑戰(zhàn)與商湯的戰(zhàn)略布局。他強調(diào):“多模態(tài)能力是通向通用人工智能(AGI)的必經(jīng)之路?!?/p>
今年5月,CreateAI發(fā)布《多模態(tài)生成技術(shù)在動畫制作領域的應用與發(fā)展白皮書》,該報告首次以中國動漫電影《哪吒2》為案例,結(jié)合權(quán)威數(shù)據(jù),揭示了AI在激發(fā)創(chuàng)意與優(yōu)化流程方面如何實現(xiàn)“降本增效”。
林達華認為,生成式AI的未來,不應僅僅追求“從文字直接生成圖像或視頻”的技術(shù)炫技,而應聚焦于創(chuàng)作者意圖與結(jié)果之間的精準對接?!癆IGC的終極形態(tài),是一個真正服務創(chuàng)作過程的交互工具。”
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學家林達華博士
時代周報:從技術(shù)角度來看,在視頻生成過程中,如何實現(xiàn)對空間結(jié)構(gòu)和物理邏輯的有效把控?
林達華:商湯很早就布局了數(shù)字人、三維建模等方向,因此在三維空間建構(gòu)方面積累深厚。在Sora引發(fā)關注時,我們也研究了它的視頻質(zhì)量,的確在視覺效果上令人驚艷,但它在物理規(guī)律的掌握上存在明顯不足——它采用的是基于時間的一幀幀生成邏輯,本質(zhì)上并不具備三維結(jié)構(gòu)的建模與控制能力。相比之下,商湯內(nèi)部一直在探索如何將三維結(jié)構(gòu)能力應用于視頻合成,讓生成視頻在空間結(jié)構(gòu)和物理邏輯上都更加真實可控。
這一優(yōu)勢也體現(xiàn)在我們參與的奧運場景應用中。例如在去年奧運會乒乓球等項目中,我們把三維的結(jié)構(gòu)的這種信號,用于控制視頻的生成,使得它生成的結(jié)果符合物理的結(jié)構(gòu)、物理的規(guī)律。成功實現(xiàn)對球拍與球體軌跡的精準還原,為賽事回放與輔助判罰提供了強有力的技術(shù)支持。
時代周報:在實際運用中,視頻生成結(jié)果“符合物理邏輯”有多重要?
林達華:這是我們高度重視的關鍵能力。生成內(nèi)容不僅要“看起來真實”,更要“邏輯上成立”。例如,商湯的“開悟”世界模型,在某種意義上,也可被視為一種視頻生成模型,但它對三維結(jié)構(gòu)生成的準確性和物理性的要求極為嚴格。若生成的結(jié)果不符合物理規(guī)律,將其用于駕駛訓練,將導致災難性的后果。所以,相較于一些AI公司追求生成畫面越“炫”越好,商湯更強調(diào)結(jié)果的正確性:我們生成的畫面必須符合物理規(guī)律、空間邏輯,并具備可解釋性。
時代周報:圖生視頻較文生視頻有哪些提升?圖生視頻具體有哪些典型應用場景?在哪些環(huán)節(jié)真正能發(fā)揮價值?
林達華:相較于文生視頻,圖生視頻顯然具備更堅實的依托。以文字為例,若要生成一只在空中飛翔的鳥,單憑文字描述,系統(tǒng)難以構(gòu)思出豐富的細節(jié)。然而,若有一張圖片作為基礎,生成的結(jié)果便會日新月異。例如,要求系統(tǒng)生成“我媽媽微笑的照片”,若系統(tǒng)未曾見過你母親,又怎能憑空創(chuàng)造?顯然,必須有一張實際圖像作為參考。因此,我認為真正的個性化生成,不應僅依賴文字描述,而需以真實影像為支撐,方能實現(xiàn)這一可能性。
從圖生視頻的角度來看,最直接的莫過于C端應用場景。假設你家中存有大量照片,希望讓它們“動”起來,這無疑是一個極具吸引力的創(chuàng)意。早期,我的團隊開發(fā)了AnimateDiff,影響力較大。如今,許多后續(xù)的圖生視頻研究都與AnimateDiff有著千絲萬縷的聯(lián)系。我們注意到,這項于2023年開源的技術(shù),被廣泛用于創(chuàng)作各類充滿想象力的視頻,用戶僅需幾張照片便能展開創(chuàng)作。
時代周報:圖生視頻的價值在哪里?您怎么看AI和人類創(chuàng)作者的關系?
林達華:我們一直認為,文生視頻也好,圖生視頻也好,都不是生成式AI的終極形態(tài)。真正的理想狀態(tài),是將創(chuàng)作者的意圖與生成過程深度融合,把AI當作一個真正服務創(chuàng)作流程的“工具”。
在我理解,包括我們剛剛發(fā)布的視頻平臺上的SekoAI,它是一個交互式創(chuàng)作工具,我們將視頻的制作視為一種創(chuàng)作,而不是僅僅輸入一句話后就不管不顧,等待它生成一個結(jié)果。這個結(jié)果很可能并不符合你的預期,也不一定能直接使用。
真正有價值的是,它能大幅減少你的工作量,同時你仍能對最終的生成內(nèi)容進行把控。當發(fā)現(xiàn)生成內(nèi)容不合適時,你可以指導它進行修改,掌控生成的脈絡,這就是交互式生成的核心所在。
國內(nèi)驚現(xiàn)“異世界入口”?就在陜西!
總想出趟國,探尋神秘的異世界景觀?別折騰啦!其實,在中國陜西,就藏著一處歷經(jīng)萬年雕琢的“異世界入口”,美得令人窒息——。這可不是美國的羚羊谷,而是被《國家地理》盛贊為“中國最美霞谷”的陜西甘泉大峽谷-。它靜靜地隱匿在黃土高原的深處,是大自然這位頂級藝術(shù)家,耗時上萬年,精心雕琢的杰作。峽谷內(nèi)獨特的紅砂巖地質(zhì) 公交可達的"異世界入口"坐上廈門島內(nèi)始發(fā)的637路公交車,車窗外的風景從雙子塔的玻璃幕墻逐漸過渡成連綿茶田。當"小坪森林公園"的站牌躍入眼簾時,別急著下車——。真正的秘境藏在距離公園大門兩公里處的無名路口——跟著拎著竹籃的采茶阿嬤拐進一條青石板路,十分鐘后你會看見驚心動魄的一幕:一條三百年歷史的引水還有呢?通往其他維度的傳送門真的存在嗎?