風(fēng)令羽
智東西作者陳駿達(dá)編輯心緣
智東西7月30日報(bào)道,在2025世界人工智能大會(huì)(WAIC2025)期間,視頻生成獨(dú)角獸生數(shù)科技的CEO駱怡航博士與媒體進(jìn)行深入交流,詳細(xì)介紹了生數(shù)科技視頻生成技術(shù)的最新進(jìn)展,并分享了他對(duì)視頻生成技術(shù)未來發(fā)展方向的見解。
駱怡航著重談到今年7月發(fā)布的ViduQ1參考生功能,他認(rèn)為,與文生視頻、圖生視頻相比,參考生視頻才是整個(gè)AI視頻創(chuàng)作范式的底層功能。這種方式既不會(huì)像文生視頻那樣缺乏一致性,也不會(huì)像圖生視頻那樣限制模型的發(fā)揮。
生數(shù)科技從去年開始研發(fā)參考生視頻技術(shù),已經(jīng)迭代4個(gè)版本。同時(shí),該公司也在一致性方向不斷投入,駱怡航認(rèn)為一致性對(duì)廣告、影視等商業(yè)創(chuàng)作而言至關(guān)重要。
駱怡航也談到了上周生數(shù)科技聯(lián)合清華大學(xué)發(fā)布的具身智能模型Vidar,這是國內(nèi)首個(gè)基于視頻生成模型的具身基座模型。雖然具身智能的大規(guī)模應(yīng)用還需要時(shí)間,但生數(shù)科技計(jì)劃繼續(xù)探索數(shù)字世界與物理世界的結(jié)合,并有可能在具身智能產(chǎn)業(yè)成熟后加大投入。
采訪中,駱怡航還針對(duì)生數(shù)科技的商業(yè)化策略、技術(shù)升級(jí)方向、AIGC產(chǎn)業(yè)趨勢等問題進(jìn)行分享。
值得一提的是,今天恰好是生數(shù)科技視頻生成模型Vidu全球上線一周年。上線1年,Vidu生成視頻總數(shù)已超過3億個(gè),用戶數(shù)超3000萬,B端落地率達(dá)到行業(yè)第一,這些數(shù)據(jù)也帶動(dòng)生數(shù)科技的年化收入突破2000萬美元(約合人民幣1.44億元)。
一、參考生回歸視頻拍攝本質(zhì),Vidu架構(gòu)可擴(kuò)展至具身智能
視頻生成當(dāng)前有多種實(shí)現(xiàn)形式,包括圖生視頻、文生視頻、參考生視頻等。其中,圖生視頻因其給予了創(chuàng)作者更多的控制力,而獲得廣泛使用。
圖生視頻需要用戶上傳完整的首幀圖或尾幀圖,模型以此為基準(zhǔn),生成畫面。但由于圖像中的各種元素已經(jīng)被固定,模型很難對(duì)畫面中的內(nèi)容進(jìn)行調(diào)整、修改,無法完全發(fā)揮出視頻生成模型在創(chuàng)造力上的優(yōu)勢。
駱怡航認(rèn)為,參考生視頻讓業(yè)界回到了本身視頻拍攝的本質(zhì):用戶可上傳人物、道具、場景等元素,無需將其通過P圖、生圖、融圖等繁瑣環(huán)節(jié),而是直接根據(jù)參考圖直出視頻。
最近推出的ViduQ1參考生視頻能力進(jìn)一步提升,已經(jīng)支持了七個(gè)主體的參考,基本可以滿足大部分場景需求。
Vidu參考生視頻同時(shí)具備主體庫功能,用戶可以上傳人物或者商品的正面、側(cè)面、背面圖,確保元素在不同場景下的主體一致性。
面向?qū)I(yè)創(chuàng)作場景,Vidu參考生視頻提供了提示詞專業(yè)模式。用戶輸入簡單的提示詞后,模型能夠?qū)⒂脩舻暮唵翁崾驹~改寫為專業(yè)提示詞,讓最終作品質(zhì)量更高,制作效率提升。
參考生視頻這項(xiàng)技術(shù)滿足了商業(yè)化場景對(duì)內(nèi)容創(chuàng)作的需求,已在廣告電商、互聯(lián)網(wǎng)、動(dòng)漫、影視、文旅、教育、游戲、廣電等八大行業(yè)落地應(yīng)用。
在Vidu視頻生成模型的基礎(chǔ)上,生數(shù)科技和清華大學(xué)共同打造了具身智能模型Vidar,這一模型與Vidu一脈相承。
駱怡航稱,Vidu架構(gòu)在設(shè)計(jì)之初就具備一定通用性,可勝任時(shí)空信息一致性的生成,在這個(gè)基礎(chǔ)架構(gòu)之上,只需進(jìn)行少量數(shù)據(jù)、低成本的微調(diào),便可將生成的虛擬視頻轉(zhuǎn)化為控制具身智能的動(dòng)作信息。
Vidar的主要?jiǎng)?chuàng)新在于,能突破原有VLA路線中優(yōu)質(zhì)數(shù)據(jù)難以獲取和具身智能難以泛化的問題,實(shí)現(xiàn)了具身智能的少樣本泛化,所需真機(jī)人類操作數(shù)據(jù)量約為行業(yè)典型值的千分之一。
二、視頻生成技術(shù)分三步走,將優(yōu)先滿足專業(yè)用戶需求
駱怡航還分享了視頻生成技術(shù)發(fā)展過程中人與AI協(xié)作三階段的觀點(diǎn)。
第一個(gè)階段仍是圖生視頻為主,需要文生圖再生視頻或者用首尾幀再生視頻的復(fù)雜流程,雖然它在生產(chǎn)環(huán)節(jié)、效率上相比傳統(tǒng)流程有所進(jìn)步,但還未達(dá)到100%的效率提升。
第二階段以參考生視頻為主要功能,無需中間分鏡生成環(huán)節(jié),只要把主體選好,就可以直接生成視頻。根據(jù)生數(shù)科技得到的用戶反饋,這種方式給效率帶來了明顯提升。
第三個(gè)階段中,將有大量內(nèi)容100%由AI生成,內(nèi)容生產(chǎn)執(zhí)行的效率和成功率極大提升,創(chuàng)作者可以把大量時(shí)間投入到故事創(chuàng)意和關(guān)鍵設(shè)計(jì)上。
駱怡航稱,目前生數(shù)Vidu正推動(dòng)AI視頻內(nèi)容生成由第二個(gè)階段向第三個(gè)階段轉(zhuǎn)變。
生數(shù)科技當(dāng)前最高的優(yōu)先級(jí)依舊是滿足視頻行業(yè)最嚴(yán)格、最復(fù)雜的專業(yè)要求,其次才是擴(kuò)展C端用戶。
對(duì)此,駱怡航解釋道,當(dāng)前視頻生成技術(shù)尚無法支撐普通用戶打造高質(zhì)量視頻,仍需在一致性、速度上實(shí)現(xiàn)突破,才能實(shí)現(xiàn)AI視頻創(chuàng)作的普惠。
生數(shù)科技可以在服務(wù)B端專業(yè)用戶的過程中,逐步打磨這些技術(shù),例如根據(jù)廣告電商客戶的需求提升一致性,或是在動(dòng)畫場景針對(duì)性地提升風(fēng)格和生產(chǎn)效率。這些在專業(yè)領(lǐng)域的技術(shù)積累,最終可以惠及C端用戶。
結(jié)語:視頻生成技術(shù)持續(xù)迭代,速度與成本仍有突破空間
隨著視頻生成模型能力的持續(xù)迭代,有越來越多的企業(yè)開始探索其應(yīng)用價(jià)值,尤其是在影視制作、廣告營銷、教育培訓(xùn)等場景中。不過,要真正實(shí)現(xiàn)規(guī)?;涞?,仍有很長的路要走。
在采訪的最后,駱怡航也分享了他眼中視頻生成未來的優(yōu)化空間。首先,一致性作為基礎(chǔ)問題,仍需要進(jìn)一步提升;解決一致性問題后,下一步就是讓視頻生成做到“快”、“好”、“省”。
其中,“快”和“省”的部分還有很大突破空間,現(xiàn)在生數(shù)科技已經(jīng)實(shí)現(xiàn)普通清晰度幾秒鐘生成視頻片段、分鐘級(jí)生成1080P視頻片段,未來會(huì)推進(jìn)AI視頻實(shí)時(shí)生成。
《超神學(xué)院》手游上線,全新玩法帶你體驗(yàn)國漫經(jīng)典
超神學(xué)院:三王隕落,黑洞齊聚,她們還有復(fù)活的可能嗎?《雄兵連之諸天降臨》結(jié)束了,結(jié)束的很不是時(shí)候,而在結(jié)束的同時(shí),作為導(dǎo)演兼編劇的薩拉雷也正式離開超神影業(yè),并帶人創(chuàng)立虛擬影業(yè),他的離開掀起了軒然大波,而他一手親自指導(dǎo)的超神系列和雄兵連系列也就此畫上了句號(hào),后面如何,已經(jīng)和他無關(guān)了?;仡櫝?,回顧好了吧!
國漫《超神學(xué)院之雄兵連》盛產(chǎn)女神!每一位都美的令人陶醉!
若昔日的超神學(xué)院僅是英雄聯(lián)盟的衍生同人動(dòng)畫,那當(dāng) 超神學(xué)院已從簡單的同人動(dòng)畫轉(zhuǎn)型為國漫杰作,制作人志在通過更廣闊的故事視野,回饋熱愛國漫的粉絲_。那天使凱莎與彥在巨峽號(hào)上亮相時(shí),我深感一款新的國漫杰作即將誕生——。制作人顯然不滿足于僅僅制作日常搞笑番,他的視野更廣闊,立志扛起國漫的大旗,以回饋熱愛國希望你能滿意。
國漫《超神學(xué)院》最美的天使戰(zhàn)隊(duì)銀河以北,吾彥最美
來源:紅網(wǎng)
作者:終碧菡
編輯:抗谷芹
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。