俄羅斯外長拉夫羅夫表示,俄羅斯當下面臨著歷史上首次單獨與整個西方作戰(zhàn)的局面,這種局面意味著什么?
本文來源:時代周報作者:雨辰
在AIGC技術快速迭代的當下,圖生視頻正在從實驗室走進創(chuàng)作室、工作坊和工業(yè)一線。
2025世界人工智能大會(WAIC2025)期間,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學家林達華博士在接受時代周報等媒體采訪時,深入剖析了多模態(tài)大模型的演進趨勢、技術挑戰(zhàn)與商湯的戰(zhàn)略布局。他強調(diào):“多模態(tài)能力是通向通用人工智能(AGI)的必經(jīng)之路。”
今年5月,CreateAI發(fā)布《多模態(tài)生成技術在動畫制作領域的應用與發(fā)展白皮書》,該報告首次以中國動漫電影《哪吒2》為案例,結(jié)合權威數(shù)據(jù),揭示了AI在激發(fā)創(chuàng)意與優(yōu)化流程方面如何實現(xiàn)“降本增效”。
林達華認為,生成式AI的未來,不應僅僅追求“從文字直接生成圖像或視頻”的技術炫技,而應聚焦于創(chuàng)作者意圖與結(jié)果之間的精準對接?!癆IGC的終極形態(tài),是一個真正服務創(chuàng)作過程的交互工具?!?/p>
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學家林達華博士
時代周報:從技術角度來看,在視頻生成過程中,如何實現(xiàn)對空間結(jié)構和物理邏輯的有效把控?
林達華:商湯很早就布局了數(shù)字人、三維建模等方向,因此在三維空間建構方面積累深厚。在Sora引發(fā)關注時,我們也研究了它的視頻質(zhì)量,的確在視覺效果上令人驚艷,但它在物理規(guī)律的掌握上存在明顯不足——它采用的是基于時間的一幀幀生成邏輯,本質(zhì)上并不具備三維結(jié)構的建模與控制能力。相比之下,商湯內(nèi)部一直在探索如何將三維結(jié)構能力應用于視頻合成,讓生成視頻在空間結(jié)構和物理邏輯上都更加真實可控。
這一優(yōu)勢也體現(xiàn)在我們參與的奧運場景應用中。例如在去年奧運會乒乓球等項目中,我們把三維的結(jié)構的這種信號,用于控制視頻的生成,使得它生成的結(jié)果符合物理的結(jié)構、物理的規(guī)律。成功實現(xiàn)對球拍與球體軌跡的精準還原,為賽事回放與輔助判罰提供了強有力的技術支持。
時代周報:在實際運用中,視頻生成結(jié)果“符合物理邏輯”有多重要?
林達華:這是我們高度重視的關鍵能力。生成內(nèi)容不僅要“看起來真實”,更要“邏輯上成立”。例如,商湯的“開悟”世界模型,在某種意義上,也可被視為一種視頻生成模型,但它對三維結(jié)構生成的準確性和物理性的要求極為嚴格。若生成的結(jié)果不符合物理規(guī)律,將其用于駕駛訓練,將導致災難性的后果。所以,相較于一些AI公司追求生成畫面越“炫”越好,商湯更強調(diào)結(jié)果的正確性:我們生成的畫面必須符合物理規(guī)律、空間邏輯,并具備可解釋性。
時代周報:圖生視頻較文生視頻有哪些提升?圖生視頻具體有哪些典型應用場景?在哪些環(huán)節(jié)真正能發(fā)揮價值?
林達華:相較于文生視頻,圖生視頻顯然具備更堅實的依托。以文字為例,若要生成一只在空中飛翔的鳥,單憑文字描述,系統(tǒng)難以構思出豐富的細節(jié)。然而,若有一張圖片作為基礎,生成的結(jié)果便會日新月異。例如,要求系統(tǒng)生成“我媽媽微笑的照片”,若系統(tǒng)未曾見過你母親,又怎能憑空創(chuàng)造?顯然,必須有一張實際圖像作為參考。因此,我認為真正的個性化生成,不應僅依賴文字描述,而需以真實影像為支撐,方能實現(xiàn)這一可能性。
從圖生視頻的角度來看,最直接的莫過于C端應用場景。假設你家中存有大量照片,希望讓它們“動”起來,這無疑是一個極具吸引力的創(chuàng)意。早期,我的團隊開發(fā)了AnimateDiff,影響力較大。如今,許多后續(xù)的圖生視頻研究都與AnimateDiff有著千絲萬縷的聯(lián)系。我們注意到,這項于2023年開源的技術,被廣泛用于創(chuàng)作各類充滿想象力的視頻,用戶僅需幾張照片便能展開創(chuàng)作。
時代周報:圖生視頻的價值在哪里?您怎么看AI和人類創(chuàng)作者的關系?
林達華:我們一直認為,文生視頻也好,圖生視頻也好,都不是生成式AI的終極形態(tài)。真正的理想狀態(tài),是將創(chuàng)作者的意圖與生成過程深度融合,把AI當作一個真正服務創(chuàng)作流程的“工具”。
在我理解,包括我們剛剛發(fā)布的視頻平臺上的SekoAI,它是一個交互式創(chuàng)作工具,我們將視頻的制作視為一種創(chuàng)作,而不是僅僅輸入一句話后就不管不顧,等待它生成一個結(jié)果。這個結(jié)果很可能并不符合你的預期,也不一定能直接使用。
真正有價值的是,它能大幅減少你的工作量,同時你仍能對最終的生成內(nèi)容進行把控。當發(fā)現(xiàn)生成內(nèi)容不合適時,你可以指導它進行修改,掌控生成的脈絡,這就是交互式生成的核心所在。
古言寵文:她仍傲然于世,且看貴女如何顯耀其華!
寵文:相府嫡女突然干嘔,6個妹控怒闖王府“攝政王滾出來!”
醫(yī)妃文:她是醫(yī)界奇才,重生歸來治好王爺?shù)臍埻?被他撿回府獨寵