智東西作者陳駿達編輯心緣
智東西7月30日報道,在2025世界人工智能大會(WAIC2025)期間,視頻生成獨角獸生數科技的CEO駱怡航博士與媒體進行深入交流,詳細介紹了生數科技視頻生成技術的最新進展,并分享了他對視頻生成技術未來發(fā)展方向的見解。
駱怡航著重談到今年7月發(fā)布的ViduQ1參考生功能,他認為,與文生視頻、圖生視頻相比,參考生視頻才是整個AI視頻創(chuàng)作范式的底層功能。這種方式既不會像文生視頻那樣缺乏一致性,也不會像圖生視頻那樣限制模型的發(fā)揮。
生數科技從去年開始研發(fā)參考生視頻技術,已經迭代4個版本。同時,該公司也在一致性方向不斷投入,駱怡航認為一致性對廣告、影視等商業(yè)創(chuàng)作而言至關重要。
駱怡航也談到了上周生數科技聯合清華大學發(fā)布的具身智能模型Vidar,這是國內首個基于視頻生成模型的具身基座模型。雖然具身智能的大規(guī)模應用還需要時間,但生數科技計劃繼續(xù)探索數字世界與物理世界的結合,并有可能在具身智能產業(yè)成熟后加大投入。
采訪中,駱怡航還針對生數科技的商業(yè)化策略、技術升級方向、AIGC產業(yè)趨勢等問題進行分享。
值得一提的是,今天恰好是生數科技視頻生成模型Vidu全球上線一周年。上線1年,Vidu生成視頻總數已超過3億個,用戶數超3000萬,B端落地率達到行業(yè)第一,這些數據也帶動生數科技的年化收入突破2000萬美元(約合人民幣1.44億元)。
一、參考生回歸視頻拍攝本質,Vidu架構可擴展至具身智能
視頻生成當前有多種實現形式,包括圖生視頻、文生視頻、參考生視頻等。其中,圖生視頻因其給予了創(chuàng)作者更多的控制力,而獲得廣泛使用。
圖生視頻需要用戶上傳完整的首幀圖或尾幀圖,模型以此為基準,生成畫面。但由于圖像中的各種元素已經被固定,模型很難對畫面中的內容進行調整、修改,無法完全發(fā)揮出視頻生成模型在創(chuàng)造力上的優(yōu)勢。
駱怡航認為,參考生視頻讓業(yè)界回到了本身視頻拍攝的本質:用戶可上傳人物、道具、場景等元素,無需將其通過P圖、生圖、融圖等繁瑣環(huán)節(jié),而是直接根據參考圖直出視頻。
最近推出的ViduQ1參考生視頻能力進一步提升,已經支持了七個主體的參考,基本可以滿足大部分場景需求。
Vidu參考生視頻同時具備主體庫功能,用戶可以上傳人物或者商品的正面、側面、背面圖,確保元素在不同場景下的主體一致性。
面向專業(yè)創(chuàng)作場景,Vidu參考生視頻提供了提示詞專業(yè)模式。用戶輸入簡單的提示詞后,模型能夠將用戶的簡單提示詞改寫為專業(yè)提示詞,讓最終作品質量更高,制作效率提升。
參考生視頻這項技術滿足了商業(yè)化場景對內容創(chuàng)作的需求,已在廣告電商、互聯網、動漫、影視、文旅、教育、游戲、廣電等八大行業(yè)落地應用。
在Vidu視頻生成模型的基礎上,生數科技和清華大學共同打造了具身智能模型Vidar,這一模型與Vidu一脈相承。
駱怡航稱,Vidu架構在設計之初就具備一定通用性,可勝任時空信息一致性的生成,在這個基礎架構之上,只需進行少量數據、低成本的微調,便可將生成的虛擬視頻轉化為控制具身智能的動作信息。
Vidar的主要創(chuàng)新在于,能突破原有VLA路線中優(yōu)質數據難以獲取和具身智能難以泛化的問題,實現了具身智能的少樣本泛化,所需真機人類操作數據量約為行業(yè)典型值的千分之一。
二、視頻生成技術分三步走,將優(yōu)先滿足專業(yè)用戶需求
駱怡航還分享了視頻生成技術發(fā)展過程中人與AI協作三階段的觀點。
第一個階段仍是圖生視頻為主,需要文生圖再生視頻或者用首尾幀再生視頻的復雜流程,雖然它在生產環(huán)節(jié)、效率上相比傳統流程有所進步,但還未達到100%的效率提升。
第二階段以參考生視頻為主要功能,無需中間分鏡生成環(huán)節(jié),只要把主體選好,就可以直接生成視頻。根據生數科技得到的用戶反饋,這種方式給效率帶來了明顯提升。
第三個階段中,將有大量內容100%由AI生成,內容生產執(zhí)行的效率和成功率極大提升,創(chuàng)作者可以把大量時間投入到故事創(chuàng)意和關鍵設計上。
駱怡航稱,目前生數Vidu正推動AI視頻內容生成由第二個階段向第三個階段轉變。
生數科技當前最高的優(yōu)先級依舊是滿足視頻行業(yè)最嚴格、最復雜的專業(yè)要求,其次才是擴展C端用戶。
對此,駱怡航解釋道,當前視頻生成技術尚無法支撐普通用戶打造高質量視頻,仍需在一致性、速度上實現突破,才能實現AI視頻創(chuàng)作的普惠。
生數科技可以在服務B端專業(yè)用戶的過程中,逐步打磨這些技術,例如根據廣告電商客戶的需求提升一致性,或是在動畫場景針對性地提升風格和生產效率。這些在專業(yè)領域的技術積累,最終可以惠及C端用戶。
結語:視頻生成技術持續(xù)迭代,速度與成本仍有突破空間
隨著視頻生成模型能力的持續(xù)迭代,有越來越多的企業(yè)開始探索其應用價值,尤其是在影視制作、廣告營銷、教育培訓等場景中。不過,要真正實現規(guī)?;涞?,仍有很長的路要走。
在采訪的最后,駱怡航也分享了他眼中視頻生成未來的優(yōu)化空間。首先,一致性作為基礎問題,仍需要進一步提升;解決一致性問題后,下一步就是讓視頻生成做到“快”、“好”、“省”。
其中,“快”和“省”的部分還有很大突破空間,現在生數科技已經實現普通清晰度幾秒鐘生成視頻片段、分鐘級生成1080P視頻片段,未來會推進AI視頻實時生成。
UP險些掀翻FPX!老賊狀態(tài)火熱!??電競小師兄
新人都在打身價,Up三局擊敗iG!D組晉級形勢明朗:乙組貴賓二位
LPL“最慘打野”誕生!UP落敗Uzi差點5殺,Ning真的盡力了!