AI如何助力主流媒體系統(tǒng)性變革?用好“最強(qiáng)外腦”,守護(hù)媒體核心價(jià)值
■AIGC視頻生成領(lǐng)域吸引國內(nèi)外大廠紛紛入局。2024年2月OpenAI發(fā)布Sora成為視頻生成模型的標(biāo)志性突破,隨后各家以DiT為主流架構(gòu)的AIGC視頻應(yīng)用紛紛發(fā)布。從當(dāng)前AIGC視頻產(chǎn)品效果來看,C端應(yīng)用的呈現(xiàn)效果相對不高,普遍存在動(dòng)作不連續(xù)、畫面扭曲的情況,但是B端AIGC內(nèi)容品質(zhì)已經(jīng)較高,但實(shí)際操作上還需借助“人機(jī)共創(chuàng)”。
■DiT架構(gòu)具有較好的擴(kuò)展性和構(gòu)圖品質(zhì),成為當(dāng)前AIGC視頻的主流架構(gòu)。在Sora發(fā)布之前,主要依賴生成對抗網(wǎng)絡(luò)架構(gòu)(GAN)和擴(kuò)散模型(Diffusion),但前者在視頻等長序列生成上表現(xiàn)不佳,后者通過逐步添加和去除噪聲來快速生成高質(zhì)量圖像,相對其他模式有壓倒性優(yōu)勢。直至Sora采用擴(kuò)散模型(DiffusionModel)與Transformer結(jié)合的DiT架構(gòu),該架構(gòu)不僅在生成質(zhì)量上保持了擴(kuò)散模型的長處,更是具有了長視頻的生成能力,因此成為了后續(xù)幾乎所有AIGC視頻模型的主流選擇。但此架構(gòu)在復(fù)雜運(yùn)動(dòng)和物理模擬方面仍需提升,如在空間分層、運(yùn)動(dòng)模塊、視頻預(yù)訓(xùn)練等方向進(jìn)行迭代優(yōu)化。
■AIGC視頻生成正推動(dòng)內(nèi)容生產(chǎn)從“人力密集模式”到“AI輔助\主導(dǎo)”轉(zhuǎn)變。在影視領(lǐng)域,AI已滲透劇本生成、分鏡設(shè)計(jì)(Midjourney秒級生成)、虛擬拍攝、特效后置等全流程,使《潛入夢?!返茸髌芬匀f元級成本實(shí)現(xiàn)傳統(tǒng)百萬元拍攝效果。產(chǎn)業(yè)格局上,AI應(yīng)用成為新入口。字節(jié)跳動(dòng)等巨頭通過“云基礎(chǔ)設(shè)施+大模型+數(shù)據(jù)飛輪+C端\B端應(yīng)用”的全AI生態(tài)布局爭奪話語權(quán)。有別于互聯(lián)網(wǎng)對傳媒的變革,產(chǎn)生劇烈的馬太效應(yīng),AIGC視頻極大的降低了內(nèi)容生產(chǎn)成本,傳媒產(chǎn)業(yè)競爭核心將從中游環(huán)節(jié)的“制作能力”和下游環(huán)節(jié)的“渠道能力”轉(zhuǎn)向上游環(huán)節(jié)的“IP創(chuàng)意運(yùn)營”和“AI視頻模型能力”。
■?鑒于AIGC視頻生成領(lǐng)域仍處于未商業(yè)化或商業(yè)化早期,可按大模型開發(fā)能力、垂直應(yīng)用技術(shù)成熟度及商業(yè)模式進(jìn)展等方面給予關(guān)注和跟進(jìn)。風(fēng)險(xiǎn)方面,需關(guān)注模型技術(shù)的迭代,如DiT架構(gòu)優(yōu)化、物理模擬突破等進(jìn)展;關(guān)注可能遭受沖擊與替代環(huán)節(jié),如實(shí)拍布景資產(chǎn)、特效團(tuán)隊(duì)等。
正文
2024年Sora的發(fā)布成為視頻生成領(lǐng)域的標(biāo)志性突破,推動(dòng)傳媒內(nèi)容生產(chǎn)進(jìn)入全新時(shí)代。本報(bào)告系統(tǒng)梳理了AIGC視頻的技術(shù)演進(jìn)路徑、產(chǎn)業(yè)變革影響及商業(yè)化發(fā)展方向。通過對國內(nèi)外主流AIGC視頻應(yīng)用的全面盤點(diǎn)與性能評估,深入解析DiT架構(gòu)的技術(shù)突破與現(xiàn)存挑戰(zhàn),并借鑒互聯(lián)網(wǎng)技術(shù)對傳媒產(chǎn)業(yè)的改造歷程,探討AIGC如何重塑從PGC、UGC到AIGC的內(nèi)容生產(chǎn)范式。
當(dāng)前AIGC視頻在影視輔助制作中的應(yīng)用已顯著降低人力成本和時(shí)間投入。可以預(yù)見,隨著AIGC視頻大模型的持續(xù)進(jìn)化,終將徹底改變傳統(tǒng)影視工業(yè)的“人力密集型”生產(chǎn)模式。當(dāng)內(nèi)容生產(chǎn)邊際成本無限趨近于零時(shí),傳媒產(chǎn)業(yè)價(jià)值鏈也將迎來重構(gòu),競爭核心將從中游環(huán)節(jié)的“制作能力”和下游環(huán)節(jié)的“渠道能力”轉(zhuǎn)向上游環(huán)節(jié)的“IP創(chuàng)意運(yùn)營”和“AI視頻模型能力”。
概覽:AIGC視頻將是最快商業(yè)化的領(lǐng)域之一,2024年取得大模型的標(biāo)志性突破
1.1全球主要應(yīng)用:海外先發(fā)、國內(nèi)大廠加快入局
目前,全球主要的AIGC視頻生成應(yīng)用多由國內(nèi)外頭部大廠或AI初創(chuàng)型公司發(fā)布,國外以O(shè)penAISora、RunwayGen-3、Meta,國內(nèi)以快手的可靈AI、阿里的通義萬相、智譜清影等為代表。
資料來源:招商銀行研究院2024年2月OpenAI發(fā)布Sora成為標(biāo)志性突破。根據(jù)Sora介紹,其可以生成長達(dá)60秒視頻,遠(yuǎn)超此前主流模型Runway、Pika等僅支持4秒視頻;其對物理世界的模擬能力和動(dòng)態(tài)一致性也明顯提升。Sora采用擴(kuò)散模型(DiffusionModel)與Transformer結(jié)合的DiT架構(gòu)。在此架構(gòu)下視頻生成模型展現(xiàn)出良好的擴(kuò)展性——隨著訓(xùn)練算力的增加,生成視頻質(zhì)量顯著提升,表現(xiàn)為時(shí)長、動(dòng)態(tài)一致性、物理世界模擬等均超過此前的技術(shù)【注釋1】,使AIGC視頻真正具備長敘事能力。此后,基于DiT架構(gòu)的視頻生成應(yīng)用迎來爆發(fā)式增長,一系列國產(chǎn)AIGC視頻應(yīng)用可靈、即夢、通義萬相等紛紛發(fā)布。
目前市場主流應(yīng)用均采用此架構(gòu)。僅Meta的MovieGen模型選擇Llama架構(gòu)。目前各應(yīng)用的生成效果還處于開發(fā)初期、不斷優(yōu)化的階段,還需要綜合考慮生成效果和成本之間平衡。根據(jù)AIGVBench評價(jià)標(biāo)準(zhǔn),目前尚未有一款產(chǎn)品占據(jù)絕對優(yōu)勢。
1.2產(chǎn)品與商業(yè)化:C端應(yīng)用的呈現(xiàn)效果相對不高,B端AIGC內(nèi)容品質(zhì)較高但需“人機(jī)共創(chuàng)”
當(dāng)前視頻生成時(shí)長多處于60s以內(nèi),但在DiT架構(gòu)下視頻生成模型的擴(kuò)展性是相對可預(yù)期的。從目前免費(fèi)AIGC視頻應(yīng)用生成效果來看,僅達(dá)到C端試用水平;但從各大廠發(fā)布的宣傳物料顯示已能達(dá)到影視短劇級的內(nèi)容效果,兩者差異可能來自其背后算力資源、影視素材訓(xùn)練庫、專業(yè)定制化調(diào)用工具等匹配級別的不同。
目前C端使用的AIGC視頻工具還處于生成效果提升的初期階段,特別是在精準(zhǔn)理解和模擬物理世界是核心難題?,F(xiàn)有應(yīng)用生成的視頻在大幅運(yùn)動(dòng)、物理復(fù)雜場景表現(xiàn)較差,容易生成肢體扭曲、違背物理定律的視頻。以某AIGC視頻應(yīng)用的生成效果為例:該應(yīng)用自帶文本擴(kuò)寫功能,輸入“宋代搖滾風(fēng)格音樂短片”后選擇自動(dòng)擴(kuò)寫。如果要相對把控生成視頻的風(fēng)格和要素,一般可先利用文生圖生成目標(biāo)風(fēng)格的圖片,再以此為基礎(chǔ)生成視頻??煽闯錾梢曨l在人物運(yùn)動(dòng)中,面部表情持續(xù)出現(xiàn)扭曲。
資料來源:招商銀行研究院B端新聞視頻內(nèi)容已有較多應(yīng)用,“人機(jī)共創(chuàng)”是目前相對主流的模式。新華社在2023年成立AIGC視頻生產(chǎn)實(shí)驗(yàn)專班,從內(nèi)容生成、應(yīng)用路徑以及開辟AIGC虛擬生成類特色欄目《AIGC古詩今畫》等,實(shí)現(xiàn)每周生產(chǎn)AIGC(含AI編輯真實(shí)素材和AI生成虛擬內(nèi)容)視頻報(bào)道產(chǎn)品150-200條,總瀏覽量破5億次。特別是2024年4月新華社播發(fā)首個(gè)AIGC音樂短片《AIGCMV:美債炸彈滴答響》,全流程運(yùn)用人工智能技術(shù)實(shí)現(xiàn)作詞、譜曲、文生圖、圖生視,24小時(shí)內(nèi)海媒瀏覽量達(dá)174萬,被多國媒體人和專家學(xué)者賬號轉(zhuǎn)發(fā)。由此看出,AIGC在新聞視頻領(lǐng)域的內(nèi)容生成和應(yīng)用模式基本已探索成型。
影視視頻內(nèi)容領(lǐng)域,短劇內(nèi)容已經(jīng)有完全依靠AIGC生成的劇集,精品影視劇的生產(chǎn)中目前AIGC可以起到運(yùn)鏡分鏡、特效渲染等輔助作用。在今年6月的第二十七屆上海國際電影節(jié),《潛入夢?!贰咀⑨?】是“AIGC單元”最佳創(chuàng)意獎(jiǎng)作品。該AI短片時(shí)長僅8分鐘、團(tuán)隊(duì)僅4人,不依賴傳統(tǒng)影視制作的攝像機(jī)與片場,而是掌握20余種AI工具,調(diào)動(dòng)關(guān)鍵詞庫、動(dòng)態(tài)模型、開源換臉技術(shù)等方式,將想象具象成鏡頭,呈現(xiàn)出大巴車爆炸、異國場景等高預(yù)算大片級視覺效果。如果用傳統(tǒng)實(shí)拍方式,成本至少百萬元以上,但AI方式可控制在萬元以內(nèi),且制作周期縮短至一周。
在專業(yè)劇集生產(chǎn)工具上,一些AIGC視聽制作平臺(tái)(如炫佳科技的Kino-AIGC視聽制作平臺(tái))通過“智能幀流技術(shù)”自動(dòng)調(diào)節(jié)畫面精度,既能快速生成低分辨率草稿,又能無縫升級至4K超清;語音生成能力上,可實(shí)現(xiàn)中、英、泰等多國語言同步譯制,并匹配原聲韻律音色。
從目前主流應(yīng)用情況來看,AIGC參與短劇制作主要用于中期的創(chuàng)作階段,起到替換實(shí)際片場拍攝的作用,而前期的劇本策劃和后期的剪輯處理,仍是需要復(fù)雜的人工來完成。
圖3:新華社《AIGCMV:美債炸彈滴答響》2024.4
(本部分有刪減,招商銀行各部請登錄“招銀智庫”查看原文)
資料來源:新華社
圖4:上海國際電影節(jié)《潛入夢?!?025.6
(本部分有刪減,招商銀行各部請登錄“招銀智庫”查看原文)
資料來源:上海國際電影節(jié)
AIGC視頻是兼具商業(yè)化發(fā)展?jié)摿吐涞厮俣鹊念I(lǐng)域之一。有別于其他行業(yè)中的AIGC生成,AIGC視頻生成的商業(yè)化路徑持續(xù)且清晰,從C端社交體驗(yàn)的秒級視頻、到B端新聞廣告的分鐘級視頻,以及未來擴(kuò)展到小時(shí)級的精品影視視頻,對應(yīng)至AIGC技術(shù)產(chǎn)品發(fā)展的不同難度,均有可供變現(xiàn)的場景和方式。而全球影視市場規(guī)模(包括電影、電視、流媒體等)至少3000億美元【注釋3】,其中我國市場規(guī)模約300-400億美元。這是AIGC視頻技術(shù)完全成熟后的一大確定性應(yīng)用市場,對當(dāng)前AIGC視頻技術(shù)的迭代發(fā)展起到穩(wěn)定的牽引作用。因此我們認(rèn)為,AIGC視頻這種更加穩(wěn)定、可預(yù)測的模式,將使其成為AIGC最快商業(yè)化的領(lǐng)域之一。
資料來源:字節(jié),招商銀行研究院模型原理與進(jìn)展:DiT架構(gòu)展現(xiàn)出較好的擴(kuò)展性和構(gòu)圖品質(zhì),但在復(fù)雜運(yùn)動(dòng)和物理模擬方面仍須提升
2.1模型架構(gòu):DiT為主流架構(gòu),運(yùn)動(dòng)模塊、視頻預(yù)訓(xùn)練、影視化工具是模型優(yōu)化方向?
DiffsuionTransformer(DiT)架構(gòu)是當(dāng)前AIGC視頻模型的主流選擇。Transformer是基于注意力機(jī)制的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),于2017年被提出,該架構(gòu)的并行化處理使其能夠充分利用圖形處理單元(graphicsprocessingunit,GPU)。并且該架構(gòu)在設(shè)計(jì)層面上允許不斷地堆疊編碼器或解碼器結(jié)構(gòu),使得整個(gè)架構(gòu)具備更好的擴(kuò)展性。Transformer架構(gòu)的提出原本是為了解決自然語言處理中的長文本記憶缺陷,但其并行計(jì)算的模式,在圖像生成領(lǐng)域也有很好的應(yīng)用性。
在Transformer架構(gòu)之前,自然語言處理和圖像生成領(lǐng)域之間,沒有太多的交叉重疊。自然語言處理領(lǐng)域,主要依賴循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)架構(gòu),通過串行計(jì)算模式使其具備文本短期記憶,后續(xù)又通過長短期記憶網(wǎng)絡(luò)(long-shorttermmemory,LSTM)用于長文本的生成任務(wù)。但受限于RNN的串行計(jì)算模式對長文本的處理仍舊局限,實(shí)踐中往往經(jīng)過幾十到100個(gè)詞后,該模型就開始偏離主題。為了解決這一問題,Transformer架構(gòu)被提出,其并行計(jì)算模式對生成式模型的發(fā)展產(chǎn)生巨大促進(jìn)。2018年后,一系列標(biāo)志性的大語言模型開始涌現(xiàn),如OpenAI的GPT-1(2018)、Google的BERT模型(2019)。
在圖片\視頻生成領(lǐng)域,早期主要依賴生成對抗網(wǎng)絡(luò)架構(gòu)(GAN,2014年被提出),但其在視頻等長序列生成上表現(xiàn)不佳。2021年,OpenAI發(fā)表《DiffusionModelsBeatGANsonImageSynthesis》,證明擴(kuò)散模型在圖像生成質(zhì)量上超越GAN;2022年谷歌的《VideoDiffusionModels》使得擴(kuò)散模型進(jìn)入視頻生成領(lǐng)域。Diffusion擴(kuò)散模型的核心思想是通過逐步添加和去除噪聲,實(shí)現(xiàn)從隨機(jī)噪聲到高質(zhì)量數(shù)據(jù)的生成過程,其在圖像、視頻生成之類和速度上,對其他模式有壓倒性優(yōu)勢。
2024年2月OpenAI發(fā)布Sora,采用擴(kuò)散模型(DiffusionModel)與Transformer結(jié)合的DiT架構(gòu),使其不僅在生成質(zhì)量上保持了擴(kuò)散模型的長處,更是具有了長視頻的生成能力,其可生成長達(dá)60秒視頻,遠(yuǎn)超此前主流模型Runway、Pika等僅支持4秒視頻。至此,DiT架構(gòu)成為了AIGC視頻模型的主流選擇。
資料來源:阿里云EasyAnimate,招商銀行研究院AIGC視頻模型的本質(zhì)是建模視頻的時(shí)空連續(xù)性。基于上述DiT架構(gòu)的AIGC視頻模型在生成視頻時(shí)長、高質(zhì)量畫質(zhì)方面實(shí)現(xiàn)了突破,但在精準(zhǔn)理解和模擬物理世界仍是核心難題。視頻生成模型后續(xù)將繼續(xù)在空間分層、運(yùn)動(dòng)模塊、視頻預(yù)訓(xùn)練等方向進(jìn)行迭代優(yōu)化。
空間分層:為了更精確高效的“模擬真實(shí)世界”,需要對視頻生成的空間要素進(jìn)行分層,區(qū)分視頻畫面的動(dòng)態(tài)、靜態(tài)、背景,動(dòng)態(tài)中又可進(jìn)一步區(qū)分多條動(dòng)線,分類給予視頻生成。這可以更高效的解決人物、背景等不連續(xù)的問題。
運(yùn)動(dòng)模塊:現(xiàn)有應(yīng)用生成的視頻在大幅運(yùn)動(dòng)、物理復(fù)雜場景表現(xiàn)較差,容易生成肢體扭曲、違背物理定律的視頻。通過引入專門設(shè)計(jì)的運(yùn)動(dòng)模塊,專門處理視頻中的時(shí)間維度信息(即幀與幀之間的運(yùn)動(dòng)變化),確保生成視頻在時(shí)間上是連貫、自然的。運(yùn)動(dòng)模塊在Transformer的注意力機(jī)制中加入時(shí)間軸,讓模型能同時(shí)分析空間(單幀畫面)和時(shí)間(多幀運(yùn)動(dòng))信息。這有助于針對性解決傳統(tǒng)AI視頻生成的變形扭曲問題。甚至可以通過不斷學(xué)習(xí)和訓(xùn)練,解決生成視頻違背物理規(guī)律的難題。如,體操、雜技運(yùn)動(dòng),一直被譽(yù)為AIGC視頻的圖靈時(shí)刻,當(dāng)前此類運(yùn)動(dòng)視頻的準(zhǔn)確生成尚還無解。
視頻預(yù)訓(xùn)練:通過視頻數(shù)據(jù)拆分過濾,例如去除字幕等特定文本信息、確保展示出運(yùn)動(dòng)感、去除可能缺乏主題焦點(diǎn)的低質(zhì)量,最終保留長度在3-10秒之間的單一主題片段用于模型訓(xùn)練。對運(yùn)動(dòng)學(xué)習(xí),使用低質(zhì)量的視頻數(shù)據(jù)集,這些視頻雖然質(zhì)量不高,但能夠提供足夠的運(yùn)動(dòng)信息,確保生成的視頻在運(yùn)動(dòng)上是連貫的。對外觀學(xué)習(xí),使用高質(zhì)量的圖像數(shù)據(jù)集,這些圖像具有高分辨率和復(fù)雜的概念組合,有助于提升生成視頻的視覺質(zhì)量。
影視化工具:視頻內(nèi)容具有專有敘事技巧,如運(yùn)鏡、筆刷走位、分鏡輔助等,也是AIGC視頻應(yīng)用要添加完善的功能。
資料來源:VBench,招商銀行研究院2.2文生\圖生效果:文生視頻創(chuàng)意度高、圖生視頻可控性高
從上一節(jié)AIGC視頻模型DiT架構(gòu)圖可知,生成式視頻分別可以通過文字和圖片信息作為編碼輸入內(nèi)容。從生成效果上,圖生視頻相對而言,對生成視頻內(nèi)容的可控性高,適合“二創(chuàng)”等有精準(zhǔn)物象的擴(kuò)展生成。文生視頻的自由度比較大,純文字生成往往內(nèi)容容易有較多遺漏,更適合創(chuàng)意類如廣告、藝術(shù)類的視頻生成。
在本文1.2節(jié)我們選取了某C端視頻生成應(yīng)用,生成一段“宋代搖滾風(fēng)格音樂短片”。以現(xiàn)有相關(guān)AIGC應(yīng)用的生成水平來看,在實(shí)際精準(zhǔn)物象、但又對物象風(fēng)格有特定要求的情況下,可以通過文本擴(kuò)寫-文生圖-圖生視頻的方式,生成此類視頻。
如需設(shè)置特定音樂,還可選擇Suno應(yīng)用,其在音頻和口型擬合的表現(xiàn)相對優(yōu)秀。另外,還可使用一些精細(xì)控制方式,例如在文本擴(kuò)寫階段,可多次嘗試擴(kuò)寫,生成詳細(xì)分鏡描述;在文生視頻階段,可以對關(guān)鍵幀控制,每3秒設(shè)置一個(gè)圖生視頻錨點(diǎn)、設(shè)置首尾幀;還可使用運(yùn)動(dòng)筆刷等功能對運(yùn)動(dòng)軌跡進(jìn)行控制。
資料來源:天JIANG公眾號,招商銀行研究院2.3各家產(chǎn)品性能:AIGC視頻的感官質(zhì)量不斷突破,但精準(zhǔn)理解、物理真實(shí)仍是核心難題?
當(dāng)前免費(fèi)AIGC視頻應(yīng)用的實(shí)際使用中,定向生成的效果可控性整體不高,往往需要多個(gè)應(yīng)用結(jié)合起來使用。這是由于各個(gè)應(yīng)用目前展現(xiàn)的長處不同,有的具有擴(kuò)寫分鏡功能,有的具有運(yùn)動(dòng)筆刷功能;有的在二次元風(fēng)格上見長,有的在國風(fēng)主題中表現(xiàn)較好。而在單個(gè)應(yīng)用的使用時(shí),往往也需要多次生成,類似“抽卡”模式。普通用戶需反復(fù)生成并篩選可用片段,個(gè)位數(shù)的生成次數(shù)能達(dá)到預(yù)期效果的話,就已經(jīng)是比較優(yōu)異的。而專業(yè)用戶,如影視團(tuán)隊(duì)則可通過定制化API直接控制生成參數(shù)(如鏡頭運(yùn)動(dòng)、角色動(dòng)作)。
下表是綜合梳理了B站及知乎平臺(tái)等AI博主整理的各類免費(fèi)AIGC視頻應(yīng)用工具評測。各家產(chǎn)品應(yīng)用的性能也在不斷迭代中,對一些控制性功能如運(yùn)動(dòng)筆刷、運(yùn)鏡等都可以進(jìn)行增加和完善。
在用戶的使用限制和價(jià)格上,也在不斷放開和降費(fèi)。例如,OpenAI的視頻生成工具Sora,其在2024.2月發(fā)布時(shí),但并未開放公測,僅對少數(shù)企業(yè)級用戶付費(fèi)使用;2024.12月其正式對多個(gè)國家用戶開放,用戶可在OpenAI官網(wǎng)上體驗(yàn)Sora。同時(shí),Sora被包含在ChatGPTPlus和ChatGPTPro的會(huì)員訂閱方案中,用戶無需額外付費(fèi)。訂閱Plus方案的用戶可使用Sora生成最多50個(gè)分辨率達(dá)720p、時(shí)長為5秒的高級視頻,而Pro方案能生成最多500個(gè)分辨率達(dá)1080p、時(shí)長為20秒的高級視頻。
資料來源:公開信息整理,招商銀行研究院AIGC將如何變革內(nèi)容產(chǎn)業(yè)?從PGC、UGC到AIGC的內(nèi)容創(chuàng)作降本平權(quán)
在思考上述問題時(shí),希望不僅僅停留在AIGC技術(shù)對內(nèi)容生產(chǎn)的改變層面,而是進(jìn)一步推演在生產(chǎn)技術(shù)變革之下,未來傳媒產(chǎn)業(yè)格局如何演變。AIGC作為劃時(shí)代技術(shù),其對各行各業(yè)變革的終局形態(tài)很難想象,因此推演其未來演變時(shí),無可避免要拿它與本世紀(jì)以來的互聯(lián)網(wǎng)技術(shù)作比較。而傳媒產(chǎn)業(yè)恰恰是在互聯(lián)網(wǎng)技術(shù)驅(qū)動(dòng)下,變革顛覆最大的產(chǎn)業(yè)(沒有之一),回顧和思考互聯(lián)網(wǎng)技術(shù)對其的影響,或可得到一定借鑒和啟發(fā)。
資料來源:招商銀行研究院互聯(lián)網(wǎng)技術(shù)發(fā)展對傳媒內(nèi)容產(chǎn)品升級、分發(fā)渠道的供需兩端均產(chǎn)生顛覆影響,本質(zhì)是信息傳輸能力與通訊設(shè)備的升級帶來內(nèi)容產(chǎn)品的迭代,而基于內(nèi)容產(chǎn)品從圖文逐漸向視頻形態(tài)升級,帶動(dòng)了分發(fā)渠道的多樣化和消費(fèi)需求的爆發(fā)。但是從內(nèi)容品質(zhì)上來看,存在追求“流量為王”犧牲“專業(yè)度”的問題。互聯(lián)網(wǎng)技術(shù)對影視內(nèi)容的生產(chǎn)影響,僅僅是體現(xiàn)在效率優(yōu)化和數(shù)字技術(shù)上,并沒有改變20世紀(jì)以來的“劇本-分鏡-拍攝-后期”傳統(tǒng)生產(chǎn)模式的本質(zhì)。
雖然當(dāng)前AIGC在傳媒內(nèi)容端的應(yīng)用僅處于初期水平,但是傳媒內(nèi)容領(lǐng)域兼具了ToC商業(yè)化應(yīng)用變現(xiàn)快速與ToB專業(yè)化生產(chǎn)亟待變革兩方面有利條件,或?qū)⑼苿?dòng)AIGC在內(nèi)容創(chuàng)作領(lǐng)域更為快速迭代。從前文1.2節(jié)所述的B端“人機(jī)共創(chuàng)”的AIGC視頻案例來看,其可極大縮減人工的成本和創(chuàng)作時(shí)間,大大簡化傳統(tǒng)生產(chǎn)模式(如根據(jù)劇本自動(dòng)生成分鏡、后期制作時(shí)特效和背景AI生成等),可以預(yù)見AIGC將成為未來內(nèi)容生產(chǎn)力變革的利劍。
3.1對標(biāo)互聯(lián)網(wǎng)技術(shù)對傳媒的變革:需求驅(qū)動(dòng),線上流量爆發(fā)帶來渠道顛覆、內(nèi)容形態(tài)迭代
3.1.1當(dāng)前格局:以短視頻為代表的PUGC內(nèi)容占據(jù)主導(dǎo),長視頻等PGC專業(yè)內(nèi)容逐漸式微
回顧互聯(lián)網(wǎng)技術(shù)對傳媒行業(yè)的推動(dòng)和變革,總體上是信息傳輸基礎(chǔ)設(shè)施的升級帶動(dòng)需求端的內(nèi)容渠道和產(chǎn)品的多元化,資訊、社交、文娛內(nèi)容的豐富度、獲取的便捷度大大增加,同時(shí)內(nèi)容形式也逐漸從圖文向視頻升級,且內(nèi)容數(shù)量大大提升。傳媒特別是互聯(lián)網(wǎng)傳媒正在持續(xù)擴(kuò)大對用戶注意力的吸引,然而這種吸引之下,是大眾對內(nèi)容品質(zhì)越來越多的詬病。也就是說,過去二十年來互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,切實(shí)創(chuàng)造了更多傳媒需求,推動(dòng)內(nèi)容形態(tài)和數(shù)量升級,但內(nèi)容品質(zhì)的升級相對滯后,反而由于需求爆發(fā)式增長導(dǎo)致供給以量以快取勝,內(nèi)容產(chǎn)品整體質(zhì)量下降。
內(nèi)容形態(tài):互聯(lián)網(wǎng)3G/4G/5G技術(shù)的迭代升級,帶來流量接入的迅速增長,互聯(lián)網(wǎng)媒體內(nèi)容也從文字、圖片到視頻進(jìn)行著升級。隨著用戶使用流量的單位成本降低,媒體內(nèi)容越來越豐富。視頻等流媒體內(nèi)容已成為移動(dòng)互聯(lián)網(wǎng)時(shí)代的重要內(nèi)容。
分發(fā)渠道:與內(nèi)容數(shù)量增長互為驅(qū)動(dòng),媒體渠道也在不斷裂變和增長,線上渠道特別是流媒體已成為主流。結(jié)構(gòu)上,線上媒體在2010年之前處于輔助地位,但隨著移動(dòng)互聯(lián)網(wǎng)的興起和深化,在微博\微信等移動(dòng)社交媒體以及愛優(yōu)騰等長視頻平臺(tái)出現(xiàn)后,到2015年線上媒體基本可以與線下媒體分庭抗禮。隨著以字節(jié)系的短視頻平臺(tái)爆發(fā)式增長,其內(nèi)容屬性兼具了娛樂、社交、資訊功能,至此線上流媒體逐漸占據(jù)主流地位。?
用戶群體:隨著產(chǎn)品和渠道數(shù)量的不斷增長,用戶群體呈現(xiàn)出更加細(xì)分的趨勢。垂類社群和長尾需求逐漸得到滿足,用戶可以根據(jù)自身興趣和需求,找到更為精準(zhǔn)的內(nèi)容和服務(wù)。這種細(xì)分化不僅提升了用戶的體驗(yàn),也為平臺(tái)提供了更多的商業(yè)機(jī)會(huì)。
內(nèi)容生產(chǎn):在電視臺(tái)、門戶網(wǎng)站和在線視頻階段,PGC(ProfessionalGeneratedContent,專業(yè)內(nèi)容生產(chǎn))是主要模式,PGC通過高質(zhì)量的內(nèi)容吸引了大量用戶的注意力。然而,隨著短視頻的興起,內(nèi)容生產(chǎn)的門檻大大降低,UGC(UserGeneratedContent,用戶生成內(nèi)容)迎來了爆發(fā)式增長。UGC憑借其高用戶參與度和多樣化的內(nèi)容形式,為平臺(tái)注入了新的活力。2019年后,短視頻逐漸進(jìn)入成熟期,內(nèi)容創(chuàng)作進(jìn)一步迭代至PUGC(ProfessionalUserGeneratedContent,專業(yè)用戶生成內(nèi)容)模式。PUGC兼具PGC的專業(yè)性和UGC的廣泛參與性,憑借專業(yè)內(nèi)容與熱點(diǎn)營銷,對長視頻等傳統(tǒng)PGC專業(yè)內(nèi)容形成顯著擠壓,成為最主流的內(nèi)容生產(chǎn)模式。
資料來源:招商銀行研究院;注:年份是按照傳媒應(yīng)用商業(yè)化興起設(shè)定,并非運(yùn)營商開始商業(yè)化的時(shí)間。運(yùn)營商牌照發(fā)放時(shí)間分別為:2G(1995)\3G(2009)、4G(2013)、5G(2019)
3.1.2驅(qū)動(dòng)特征:互聯(lián)網(wǎng)技術(shù)顛覆渠道格局,PGC及PUGC內(nèi)容生產(chǎn)機(jī)構(gòu)依附于互聯(lián)網(wǎng)巨頭
互聯(lián)網(wǎng)技術(shù)對傳媒行業(yè)的變革,本質(zhì)上源于信息傳輸能力和通訊設(shè)施的升級,不僅催生了多元化的內(nèi)容產(chǎn)品形態(tài),更重塑了整個(gè)行業(yè)的傳播邏輯。從文字、圖片到短視頻、直播,內(nèi)容形式的演進(jìn)始終與技術(shù)進(jìn)步同步,而分發(fā)渠道也從傳統(tǒng)的廣電網(wǎng)絡(luò)、紙質(zhì)媒體轉(zhuǎn)向了算法驅(qū)動(dòng)的社交媒體和視頻平臺(tái)。這一變革的終局,是行業(yè)權(quán)力結(jié)構(gòu)的根本性轉(zhuǎn)移——傳播中心從線下廣電渠道讓位于線上視頻平臺(tái),內(nèi)容生產(chǎn)的話語權(quán)從專業(yè)機(jī)構(gòu)主導(dǎo)的PGC模式(以供定需)轉(zhuǎn)向由用戶和創(chuàng)作者共同參與的PUGC模式(流量為王)。這種轉(zhuǎn)變不僅重構(gòu)了內(nèi)容生態(tài),更深刻改變了傳媒行業(yè)的商業(yè)邏輯和競爭規(guī)則。
更不能忽視的是,互聯(lián)網(wǎng)技術(shù)的普及在推動(dòng)行業(yè)變革的同時(shí),也帶來了前所未有的馬太效應(yīng),這種現(xiàn)象的強(qiáng)度遠(yuǎn)超傳統(tǒng)媒體時(shí)代。其根源在于互聯(lián)網(wǎng)技術(shù)極大強(qiáng)化了人與人、人與物之間的連接效率,根據(jù)梅特卡夫定律,網(wǎng)絡(luò)價(jià)值與用戶數(shù)量的平方成正比。這種超線性增長特性使得頭部平臺(tái)能夠迅速積累用戶規(guī)模,形成近乎壟斷的市場地位。在傳媒領(lǐng)域,這種效應(yīng)表現(xiàn)為流量和用戶注意力的高度集中——少數(shù)幾個(gè)超級平臺(tái)(字節(jié)、騰訊等)掌控了絕大部分的內(nèi)容分發(fā)渠道和用戶時(shí)長,而傳統(tǒng)媒體則逐漸邊緣化。這種集中度不僅改變了內(nèi)容傳播的格局,更重塑了整個(gè)傳媒產(chǎn)業(yè)的權(quán)力結(jié)構(gòu)。
騰訊系依靠微信+QQ持續(xù)在3G\4G時(shí)代占據(jù)絕對優(yōu)勢,而字節(jié)系則憑借抖音頭條等頭部產(chǎn)品,以4G移動(dòng)互聯(lián)網(wǎng)下沉為契機(jī)實(shí)現(xiàn)快速追趕,兩大巨頭位列互聯(lián)網(wǎng)時(shí)長的前兩位。根據(jù)QuestMobile統(tǒng)計(jì),截至2022年12月,騰訊系時(shí)長占比達(dá)33.6%,字節(jié)系時(shí)長占比達(dá)24.5%,快手系(10.2%)、百度系(8%)和阿里系(6.2%)分別位列第3-5名。
資料來源:QuestMobile,招商銀行研究院互聯(lián)網(wǎng)時(shí)代的媒體分發(fā)渠道集中度之所以遠(yuǎn)高于傳統(tǒng)媒體時(shí)代,關(guān)鍵在于技術(shù)特性帶來的規(guī)模效應(yīng)和網(wǎng)絡(luò)效應(yīng)雙重疊加。一方面,數(shù)字內(nèi)容的邊際成本趨近于零,使得頭部平臺(tái)能夠以極低成本服務(wù)海量用戶;另一方面,用戶聚集產(chǎn)生的數(shù)據(jù)資產(chǎn)又進(jìn)一步強(qiáng)化了平臺(tái)的算法優(yōu)勢,形成難以打破的正向循環(huán)。這種“贏家通吃”的格局導(dǎo)致新興媒體難以突圍,即便擁有優(yōu)質(zhì)內(nèi)容也難以獲得對等的傳播機(jī)會(huì)。在傳統(tǒng)媒體時(shí)代,由于物理分發(fā)渠道的限制和地域性特征,市場尚能維持相對分散的競爭格局;而在互聯(lián)網(wǎng)時(shí)代,技術(shù)特性天然傾向于集中化,這使得傳媒行業(yè)的馬太效應(yīng)表現(xiàn)得尤為突出。
面對互聯(lián)網(wǎng)技術(shù)帶來的馬太效應(yīng),傳媒行業(yè)正在經(jīng)歷深刻的調(diào)整與重構(gòu)。一方面,頭部平臺(tái)憑借流量優(yōu)勢和數(shù)據(jù)積累,不斷向產(chǎn)業(yè)鏈上游延伸,通過投資、并購等方式鞏固其市場地位;另一方面,專業(yè)內(nèi)容機(jī)構(gòu)不得不調(diào)整策略,或選擇與平臺(tái)深度綁定,或轉(zhuǎn)向垂直細(xì)分領(lǐng)域?qū)で蟛町惢婵臻g。進(jìn)而導(dǎo)致內(nèi)容價(jià)值的評判標(biāo)準(zhǔn)發(fā)生根本性變化——從專業(yè)導(dǎo)向轉(zhuǎn)向流量導(dǎo)向,從質(zhì)量優(yōu)先轉(zhuǎn)向算法友好。內(nèi)容創(chuàng)作存在追求“流量為王”而犧牲“專業(yè)度”的問題。
值得注意的是,隨著監(jiān)管的介入和新技術(shù)(如AI)的發(fā)展,過度集中的市場格局可能出現(xiàn)新的變數(shù)。與此同時(shí),當(dāng)前傳媒行業(yè)面臨的內(nèi)容同質(zhì)化、質(zhì)量參差不齊等發(fā)展瓶頸,恰恰為AIGC(人工智能生成內(nèi)容)技術(shù)提供了施展空間,或可通過重構(gòu)內(nèi)容創(chuàng)作的價(jià)值鏈條和生產(chǎn)方式,實(shí)現(xiàn)內(nèi)容創(chuàng)作生產(chǎn)力的變革。
3.2AIGC技術(shù)對傳媒的變革:供給驅(qū)動(dòng),內(nèi)容創(chuàng)作迎來“破壁”,視頻垂直應(yīng)用或成為新入口?
AIGC對傳媒行業(yè)的變革,本質(zhì)是內(nèi)容供給端的技術(shù)革命。與互聯(lián)網(wǎng)技術(shù)驅(qū)動(dòng)的需求端(包括渠道和產(chǎn)品類型)變革不同,其核心在于內(nèi)容供給的生產(chǎn)力躍遷。如果說互聯(lián)網(wǎng)技術(shù)通過降低信息傳輸成本、拓寬分發(fā)渠道,讓內(nèi)容消費(fèi)需求爆發(fā)式增長,那么AIGC則通過重構(gòu)內(nèi)容生產(chǎn)邏輯,讓創(chuàng)作效率和產(chǎn)業(yè)格局發(fā)生根本性變化。其影響將不僅僅是改變內(nèi)容生產(chǎn)模式,同樣還會(huì)重塑傳媒產(chǎn)業(yè)的話語權(quán)結(jié)構(gòu)。
3.2.1推論1:內(nèi)容生產(chǎn)重塑,從“人力密集”到“AI輔助\主導(dǎo)”
傳統(tǒng)影視制作中,從創(chuàng)意到成片需要經(jīng)歷劇本創(chuàng)作、分鏡設(shè)計(jì)、實(shí)拍拍攝、后期制作等復(fù)雜環(huán)節(jié),耗時(shí)長且成本高昂,影視內(nèi)容生產(chǎn)長期一直處于高成本、長周期的“重工業(yè)”模式。傳統(tǒng)影視制作高度依賴人力,不僅演員成本極高,亦是需要編劇、監(jiān)制、后期、特效等專業(yè)人才,AIGC重塑影視制作各個(gè)環(huán)節(jié),大幅減少人力投入和制作時(shí)間。同時(shí)也將同步重構(gòu)影視產(chǎn)業(yè)的價(jià)值鏈:當(dāng)內(nèi)容生產(chǎn)邊際成本趨近于零,競爭焦點(diǎn)將從“制作能力”轉(zhuǎn)向“創(chuàng)意IP運(yùn)營”。
資料來源:招商銀行研究院劇本開發(fā)階段:AI劇本生成器可基于關(guān)鍵詞自動(dòng)生成故事框架,將創(chuàng)意孵化周期從數(shù)月壓縮至數(shù)天。還可實(shí)時(shí)檢測情節(jié)漏洞,替代傳統(tǒng)人工劇本評估環(huán)節(jié)?!吨i題大師》是Netflix的一次實(shí)驗(yàn)性的動(dòng)畫短片,其利用AI技術(shù)生成400+劇情分支方案。AI在學(xué)習(xí)了40萬小時(shí)的恐怖電影素材后自動(dòng)生成劇本,并融合了大量無厘頭的喜劇元素,全程均由AI生成劇本,整個(gè)故事進(jìn)展的推動(dòng)方式極其荒誕,反而產(chǎn)生出超乎尋常的無厘頭喜劇效果。國內(nèi)頭部影視公司華策影視持續(xù)探索影視AI應(yīng)用,其自研大模型“有風(fēng)”已在內(nèi)部電視劇、電影、短劇等團(tuán)隊(duì)使用,可將一部120萬字的小說評估報(bào)告生成時(shí)長從5至7天縮短到15-30分鐘,提高評估效率與精準(zhǔn)度。
視覺分鏡預(yù)生產(chǎn):傳統(tǒng)手繪分鏡需數(shù)小時(shí)至數(shù)天,而AI可實(shí)現(xiàn)10秒內(nèi)生成多版本分鏡。如美國人工智能公司Midjourney(在AI繪圖領(lǐng)域,Midjourney與StableDiffusion被公認(rèn)為兩大龍頭)支持文字快速生成攝影級畫面,細(xì)節(jié)處理已達(dá)專業(yè)水準(zhǔn)。
拍攝制作階段:虛擬制片系統(tǒng)實(shí)現(xiàn)實(shí)時(shí)背景替換,還可用群演系統(tǒng)(基于AI動(dòng)作生成)節(jié)省戰(zhàn)爭場景千萬級成本。
3.2.2推論2:產(chǎn)業(yè)格局演變,AI應(yīng)用或成為平臺(tái)競爭新入口
盡管當(dāng)前AIGC完全替代傳媒產(chǎn)業(yè)的人工投入還不現(xiàn)實(shí),但是已經(jīng)可以在一些低端需求如背景搭建、群演上降低了對人員的依賴,同時(shí)還可大大降低內(nèi)容創(chuàng)作的入門門檻。如文生圖(如MidJourney)、文生視頻(如Sora)、AI音樂生成(如Suno)等垂直工具,已經(jīng)成為用戶創(chuàng)作的新入口,挑戰(zhàn)傳統(tǒng)內(nèi)容平臺(tái)的主導(dǎo)地位。
另一方面,頭部互聯(lián)網(wǎng)平臺(tái)正在加速入局AIGC模型及應(yīng)用,并且更加注重云基礎(chǔ)設(shè)施+大模型+數(shù)據(jù)飛輪+C端\B端應(yīng)用的全AI生態(tài)布局。短期AI模型應(yīng)用的技術(shù)領(lǐng)先性、功能性,仍是平臺(tái)競爭的重點(diǎn)。
例如,字節(jié)跳動(dòng)正以豆包大模型為核心,構(gòu)建覆蓋AI基礎(chǔ)設(shè)施、多模態(tài)能力、智能終端、行業(yè)應(yīng)用的全棧AI生態(tài),形成從底層算力到上層應(yīng)用的完整閉環(huán)。算法環(huán)節(jié)上,以豆包大模型為核心,涵蓋圖像、視頻、音頻和開發(fā)等多個(gè)領(lǐng)域,并且可為開發(fā)者提供成熟完整的工具鏈。應(yīng)用環(huán)節(jié)上,字節(jié)在AI應(yīng)用的戰(zhàn)略較為清晰,一是對標(biāo)優(yōu)質(zhì)競品推出C端應(yīng)用產(chǎn)品,覆蓋聊天助手、情感陪伴、教育等全領(lǐng)域,二是B端Agent、AI云服務(wù)配套大模型應(yīng)用的企業(yè)級布局,三是利用產(chǎn)品矩陣的流量和商務(wù)團(tuán)隊(duì),助力AI應(yīng)用的推廣。
資料來源:字節(jié),招商銀行研究院3.2.3推論3:應(yīng)用商業(yè)化,短期落地看C端,長期壁壘看B端
ToC端AIGC應(yīng)用是未來一兩年的主要落地領(lǐng)域,ToB端應(yīng)用短期以輔助降本為主,長期隨著技術(shù)成熟的提升,可能成為內(nèi)容制作的主導(dǎo)力量。預(yù)計(jì)未來幾年,AIGC的C端應(yīng)用將快速放量、圈攬用戶,而B端深度嵌入內(nèi)容生產(chǎn)流程也將隨著技術(shù)快速升級而形成成熟商業(yè)模式。
在C端市場,低門檻、趣味性應(yīng)用(如AI繪畫、短視頻生成)快速吸引用戶。如視頻生成大模型快手“可靈AI”,自2024年6月上線至今,月活用戶數(shù)量增長25倍。截至目前,可靈AI全球用戶規(guī)模已突破2200萬,累計(jì)生成1.68億個(gè)視頻及3.44億張圖片素材。短期看,C端應(yīng)用還處于導(dǎo)流階段,當(dāng)下競爭聚焦于生成成本的持續(xù)下降、使用功能及效果的持續(xù)優(yōu)化;中長期還需在用戶留存和盈利模式等方向探索。
相比之下,B端市場的商業(yè)化更具長期價(jià)值。一方面,B端技術(shù)將大大縮減現(xiàn)有影視制作的成本,盈利模式清晰有效;另一方面,B端技術(shù)成熟度提升,又將反哺C端產(chǎn)品,如快手可靈AI從影視B端延伸至UGC創(chuàng)作,進(jìn)一步加筑C端應(yīng)用的壁壘。
結(jié)論及建議:關(guān)注大模型開發(fā)能力、垂直應(yīng)用技術(shù)成熟度及商業(yè)模式進(jìn)展
當(dāng)前AIGC視頻在影視輔助制作中的應(yīng)用已可顯著降低人力成本和時(shí)間投入??梢灶A(yù)見,隨著AIGC視頻大模型的持續(xù)進(jìn)化,終將徹底改變傳統(tǒng)影視工業(yè)的“人力密集型”生產(chǎn)模式。當(dāng)內(nèi)容生產(chǎn)邊際成本無限趨近于零時(shí),傳媒產(chǎn)業(yè)價(jià)值鏈也將迎來重構(gòu),競爭核心將從中游環(huán)節(jié)的“制作能力”和下游環(huán)節(jié)的“渠道能力”轉(zhuǎn)向上游環(huán)節(jié)的“IP創(chuàng)意運(yùn)營”和“AI視頻模型能力”。
從銀行業(yè)務(wù)視角,鑒于AIGC視頻生成領(lǐng)域仍處于未商業(yè)化或商業(yè)化早期,可按大模型開發(fā)能力、按垂直應(yīng)用技術(shù)成熟度、按垂直應(yīng)用商業(yè)模式等方面給予關(guān)注和跟進(jìn)。
(本段有刪減,招商銀行各部請登錄“招銀智庫”查看原文)
注釋
1、在DiT架構(gòu)之前,AIGC視頻模型主要采用生成對抗網(wǎng)絡(luò)GAN架構(gòu)、Transformer自回歸模型。
2、短片《潛入夢?!肥巧虾H電影節(jié)“AIGC單元”最佳創(chuàng)意獎(jiǎng)作品,其AI影像總監(jiān)和分鏡設(shè)計(jì)師劉璨聞,00后,曾就讀于中央美術(shù)學(xué)院附中與溫哥華電影學(xué)院,現(xiàn)供職于一家AI科技公司。
3、全球影視市場中,全球電影票房收入約400億美元,電視OTT及流媒體的訂閱收入約1000億美元,影視相關(guān)廣告收入>1000億美元,另還包括周邊衍生文娛市場等。