你的家鄉(xiāng)話里,有沒有哪個(gè)詞,是普通話完全無法替代的?
智東西作者陳駿達(dá)編輯漠影
起猛了,AI現(xiàn)在都能生成武打戲了,還是人虎搏斗的那種!
近日,一條名為《風(fēng)入松》的AI短片,在年度AI盛會(huì)WAIC期間亮相,吸引了不少眼球。這部影片以現(xiàn)代廢土風(fēng),重新演繹了經(jīng)典的“武松打虎”故事。
▲AI短片《風(fēng)入松》
《風(fēng)入松》由中國電影導(dǎo)演中心與中國電信人工智能研究院(TeleAI)聯(lián)手打造,使用的正是TeleAI的VAST視頻生成大模型。
TeleAI由中國電信集團(tuán)CTO、首席科學(xué)家李學(xué)龍教授牽頭組建,于去年7月的WAIC大會(huì)上正式揭牌。在李學(xué)龍教授的帶領(lǐng)下,TeleAI團(tuán)隊(duì)打造了包括VAST在內(nèi)的星辰大模型體系,是國內(nèi)首個(gè)全模態(tài)、全尺寸、全國產(chǎn)的“三全”大模型,并推動(dòng)相關(guān)技術(shù)的創(chuàng)新和應(yīng)用。
從設(shè)定的角度來看,《風(fēng)入松》這部短片本身便極具想象力,但最令人驚嘆的,當(dāng)屬AI技術(shù)如何將天馬行空的想象化為逼真畫面。
作為技術(shù)支撐,TeleAI的VAST視頻生成大模型去年12月發(fā)布時(shí),便在權(quán)威視頻生成評測榜單VBench中奪得榜首,并持續(xù)迭代升級。
從基礎(chǔ)畫面生成,到復(fù)雜動(dòng)作,再到鏡頭控制與角色一致性優(yōu)化,其能力邊界不斷擴(kuò)展,已具備在專業(yè)創(chuàng)作場景中“頂上陣”的潛力。
一、視頻生成告別開盲盒游戲,能演會(huì)拍才是好AI
要真正理解《風(fēng)入松》這部短片實(shí)現(xiàn)的突破,我們首先得看看,影視制作究竟需要什么樣的AI工具。
分辨率高、動(dòng)作流暢、細(xì)節(jié)寫實(shí),這些只是技術(shù)層面的基礎(chǔ)能力,遠(yuǎn)遠(yuǎn)不夠支撐一部真正意義上的影視作品。
要在真實(shí)的影視制作流程中發(fā)揮作用,AI更關(guān)鍵的是要理解導(dǎo)演的創(chuàng)作意圖,跟上敘事節(jié)奏、掌握鏡頭語言、調(diào)動(dòng)情緒氛圍,真正融入視聽語言的表達(dá)體系。
換言之,AI不僅要會(huì)畫畫,更要像電影人一樣會(huì)拍、會(huì)演,能夠協(xié)同完成角色塑造、場景調(diào)度與敘事推進(jìn),成為一名具備視聽表達(dá)能力的“創(chuàng)作伙伴”。
《風(fēng)入松》中,TeleAI的VAST視頻生成大模型已展現(xiàn)出強(qiáng)烈的畫面表現(xiàn)力和敘事控制力。
影片伊始,當(dāng)現(xiàn)代“武松”騎著摩托車在沙漠飛馳,AI將每一處細(xì)節(jié)都刻畫得淋漓盡致:引擎轟鳴聲與風(fēng)沙的呼嘯形成震撼音浪,摩托車飛躍障礙時(shí)在空中劃出完美的弧線,車輪駛過沙地時(shí)激起細(xì)膩的沙浪,光影真實(shí)自然。
在激烈的猛虎搏斗場景中,AI模擬的每一根虎毛都隨動(dòng)作擺動(dòng),肌肉線條在撲咬時(shí)展現(xiàn)出驚人的動(dòng)態(tài)細(xì)節(jié);主角與老虎搏斗時(shí)拳拳到肉,動(dòng)作有力、毫無穿幫。這些曾需要頂級特效團(tuán)隊(duì)數(shù)月打磨的畫面,如今通過AI實(shí)現(xiàn)了電影級的真實(shí)感。
TeleAI視頻生成大模型已經(jīng)憑借其影片質(zhì)量,俘獲了一批專業(yè)人士。參與《風(fēng)入松》制作的團(tuán)隊(duì)在影視行業(yè)有豐富的從業(yè)經(jīng)驗(yàn),據(jù)了解,他們在使用TeleAI視頻生成大模型后,給予了高度認(rèn)可,這更凸顯了TeleAI在視頻生成領(lǐng)域?qū)崿F(xiàn)的重大突破。
二、如何打造電影級視頻生成模型?揭秘背后三項(xiàng)核心技術(shù)
那么,打造這樣一款視頻生成大模型,背后究竟需要哪些關(guān)鍵支撐?從《風(fēng)入松》的畫面中,我們可以清晰地看到其中的三項(xiàng)核心技術(shù)。
首先是動(dòng)作遷移技術(shù)。在《風(fēng)入松》這部短片中,TeleAI的VAST視頻生成大模型展現(xiàn)出強(qiáng)大的畫面表現(xiàn)力和敘事控制力。張力十足的打斗戲中,沒有出現(xiàn)“穿?!?、扭曲等常見問題。
動(dòng)作遷移技術(shù)允許制作者上傳一張首幀圖和一段參考動(dòng)作,AI便能讓首幀圖中人物的動(dòng)作表演與參考視頻完全一致。這一技術(shù)成功攻克了AI生成視頻中動(dòng)作節(jié)奏難以控制、人物表情表演生硬等難題,讓AI生成的視頻人物動(dòng)作更自然、表情更生動(dòng)。
業(yè)界的主流動(dòng)作遷移方案都基于骨骼綁定,不過,TeleAI決定更上一層樓,將其從2D骨骼點(diǎn)升級為3D骨骼點(diǎn)綁定,使得動(dòng)作更具空間感、層次感,甚至可以自然地控制動(dòng)物或卡通人物。
另一大核心技術(shù)為可控三維運(yùn)鏡,賦予了AI對“鏡頭語言”的準(zhǔn)確理解和運(yùn)用能力。例如,在下方畫面短短的幾秒內(nèi),《風(fēng)入松》呈現(xiàn)了多角度、快速切換的復(fù)雜運(yùn)鏡,遠(yuǎn)景、仰拍、特寫等流暢銜接。這些原本需要專業(yè)攝影指導(dǎo)和團(tuán)隊(duì)配合的鏡頭切換,在這里被AI準(zhǔn)確實(shí)現(xiàn)。
這并不是靠堆砌提示詞“蒙”出來的。通過可控三維運(yùn)鏡技術(shù),TeleAI把三維重建與視頻生成深度融合,賦予模型空間結(jié)構(gòu)的感知能力,再通過攝像機(jī)內(nèi)參、外參等物理參數(shù)精細(xì)控制運(yùn)鏡效果。AI不只是懂內(nèi)容,它逐漸開始懂得怎么拍,讓AI真正具備導(dǎo)演般的視角。
會(huì)演、會(huì)拍僅僅是開始,很多業(yè)內(nèi)人士評價(jià),AI視頻目前最大的問題之一是“一致性差”,同一人物在不同鏡頭中的形象、著裝、氣質(zhì)常常前后不一,極易穿幫。
但《風(fēng)入松》中的主角卻始終保持了穩(wěn)定的外貌風(fēng)格,這得益于背后的人物一致性技術(shù)。TeleAI的VAST視頻生成大模型采用分步生成的方式,先生成分鏡、深度信息等中間數(shù)據(jù),再在此基礎(chǔ)上精細(xì)生成畫面。
這種生成流程極大提高了人物、畫面的一致性與敘事可控性,流程和電影工業(yè)中用故事板搭建畫面框架,再利用計(jì)算機(jī)圖形技術(shù)渲染的邏輯幾乎一致,讓AI沒有隨意發(fā)揮的空間。
上述底層能力的升級,是AI視頻真正邁入影視工業(yè)體系的敲門磚。更重要的是,TeleAI在與專業(yè)導(dǎo)演的合作中,獲得了大量來自一線實(shí)踐的反饋需求:比如演員的表情、情緒、人物節(jié)奏等更加細(xì)膩的表演控制。這些開發(fā)者原本沒有預(yù)料到的專業(yè)需求,正逐漸轉(zhuǎn)化為技術(shù)研發(fā)的新方向。憑借這些先進(jìn)技術(shù),TeleAI為影視制作行業(yè)帶來了前所未有的便利和優(yōu)勢。
三、視頻生成+通信解鎖新場景,“腦補(bǔ)”畫面實(shí)現(xiàn)遠(yuǎn)洋視頻通話
在推動(dòng)視頻生成技術(shù)賦能影視工業(yè)的同時(shí),TeleAI也在積極探索這項(xiàng)技術(shù)更廣闊的應(yīng)用場景。畢竟,視頻生成的本質(zhì)并不僅限于電影創(chuàng)作,而是一種對視覺信息的重構(gòu)方式。
從AI的通用視角來看,“智能的本質(zhì)是壓縮”已成為業(yè)內(nèi)共識。無論是語言模型、圖像模型還是視頻模型,其核心任務(wù)都是從海量原始數(shù)據(jù)中提取模式與規(guī)律,并以高效、緊湊的方式編碼進(jìn)模型參數(shù)中,模型學(xué)會(huì)用有限的參數(shù)表示無限的可能。
但真正的智能不僅在于壓縮,更在于“還原”。也就是說,一個(gè)具備高水平智能的系統(tǒng),必須能夠在接收有限信息的情況下,準(zhǔn)確重建原始內(nèi)容,甚至完成合理補(bǔ)全與未來預(yù)測。
中國電信人工智能研究院(TeleAI)將VAST視頻生成大模型與其正在布局和研究的一項(xiàng)重要技術(shù)“智傳網(wǎng)(AIFlow)”深度結(jié)合,提出了一種新型通信技術(shù)——生成式智能傳輸,也就是用“計(jì)算”換“帶寬”。
智傳網(wǎng)(AIFlow)是人工智能(智)、通信(傳)、網(wǎng)絡(luò)(網(wǎng))三項(xiàng)關(guān)鍵技術(shù)的融合,通過網(wǎng)絡(luò)分層架構(gòu),基于連接與交互,能夠?qū)崿F(xiàn)智能的傳遞和涌現(xiàn)。
在李學(xué)龍教授的帶領(lǐng)下,TeleAI打造了包括智傳網(wǎng)(AIFlow)技術(shù)體系(包括生成式智能通信技術(shù)等)在內(nèi)的“一治+三智”戰(zhàn)略科研布局,其他方向還包括AI治理、智能光電(包括具身智能)、智能體。
智傳網(wǎng)(AIFlow)的突破,有望解決通信業(yè)務(wù)中一個(gè)長期存在的難題——如何在極其有限的帶寬條件下,高效傳輸高質(zhì)量的視頻和多媒體內(nèi)容。
這是困擾通信行業(yè)多年的技術(shù)瓶頸——傳統(tǒng)的視頻通信技術(shù)依賴高帶寬和高穩(wěn)定性的網(wǎng)絡(luò)環(huán)境,一旦網(wǎng)絡(luò)不給力,立刻就卡成PPT、音畫不同步。
像你我這樣的普通用戶,也經(jīng)常會(huì)在生活中遇到類似問題。例如,在演唱會(huì)、會(huì)展等人員極為密集的場所,網(wǎng)絡(luò)擁堵常常導(dǎo)致視頻通話無法連接、直播卡頓,甚至連基本的視頻上傳和下載都變得困難。
更不用說在高鐵、地下、飛機(jī)或遠(yuǎn)洋、偏遠(yuǎn)山區(qū)等極端條件下,視頻通信幾乎成為奢望。這些問題背后,正是現(xiàn)有通信技術(shù)在帶寬、穩(wěn)定性和數(shù)據(jù)傳輸效率上的瓶頸。
在本屆WAIC大會(huì)上,TeleAI展示了基于智傳網(wǎng)(AIFlow)的生成式智能傳輸技術(shù)的典型案例——遠(yuǎn)洋通信,破解了這一瓶頸。
船舶與陸地的通信,長期以來是全球航海技術(shù)發(fā)展中的巨大挑戰(zhàn)。由于船上的衛(wèi)星網(wǎng)很慢,信號很差,船員只能通過微信打字給家里報(bào)平安,無法進(jìn)行視頻電話或刷短視頻、上視頻網(wǎng)站。
通過生成式智能傳輸技術(shù),讓遠(yuǎn)洋視頻通話不再是奢望,它將變得簡單而高效。這項(xiàng)技術(shù)的應(yīng)用,不僅連通了海洋與陸地,也讓船員們的業(yè)余時(shí)光告別了單調(diào),擁有如同岸上般豐富的色彩。
傳統(tǒng)視頻壓縮傳輸方式是把整段視頻原樣搬運(yùn),而生成式智能傳輸技術(shù)則采用了更聰明的辦法:通過TeleAI的多模態(tài)大模型,提取音視頻最關(guān)鍵的特征信息,壓縮編碼后,將這些信息發(fā)送給接收端。
而在接收端,TeleAI部署在本地的多模態(tài)生成大模型能根據(jù)上述信息,自主“腦補(bǔ)”出完整畫面,就像用草圖還原一副畫作一樣。
這種壓縮傳輸方式相較傳統(tǒng)方案(如H.264+5GLDPC)展現(xiàn)出明顯優(yōu)勢。在衛(wèi)星場景下帶寬資源稀缺時(shí),這個(gè)方案將帶寬需求壓縮了整整1-2個(gè)數(shù)量級,視頻數(shù)據(jù)體積最多可降至原始的1%,在背景變化較小的場景中甚至可達(dá)千分之一。
在船載服務(wù)器上的多模態(tài)生成大模型本地完成音視頻的智能還原后,畫質(zhì)、音質(zhì)可以保持“主觀無損”的水平。這就讓遠(yuǎn)洋海員們即便在極低帶寬條件下,依然能夠?qū)崿F(xiàn)清晰、流暢的視頻通話體驗(yàn)。
從部署角度來看,這項(xiàng)技術(shù)對硬件要求也非常友好——船只僅需搭載一臺配有4張消費(fèi)級顯卡的本地服務(wù)器,便可為船員提供穩(wěn)定的Wi-Fi視頻通話服務(wù)。這種輕量化部署,為未來的規(guī)?;涞靥峁┝爽F(xiàn)實(shí)基礎(chǔ)。
生成式智能傳輸不僅適用于遠(yuǎn)洋通信,還是一整套可適配不同通信環(huán)境的解決方案。系統(tǒng)可根據(jù)不同場景下的帶寬、算力等資源條件,智能選擇不同大小的視頻解碼模型。
例如,在多數(shù)通話場景中,僅使用480P分辨率和小模型即可實(shí)現(xiàn)流暢且清晰的通信體驗(yàn),從而實(shí)現(xiàn)算力與帶寬的最優(yōu)協(xié)同。
可以說,這項(xiàng)技術(shù)展現(xiàn)的并非某一項(xiàng)技術(shù)的單點(diǎn)突破,而是一種系統(tǒng)性的融合式創(chuàng)新。如果沒有VAST視頻生成技術(shù)的日益成熟,視頻信號根本壓縮不到這個(gè)程度;如果沒有智傳網(wǎng)(AIFlow)基礎(chǔ)構(gòu)建,再精美的畫面也送不到用戶眼前。
未來,通信不再是單純的信號搬運(yùn),而是理解與重建的過程,編碼的不再是比特,而是意義本身。生成式智能傳輸技術(shù)在遠(yuǎn)洋通信的應(yīng)用場景中已獲得驗(yàn)證,在不久的未來,這項(xiàng)技術(shù)將進(jìn)一步推廣,實(shí)現(xiàn)在飛機(jī)的機(jī)艙內(nèi)撥打高清視頻會(huì)議,不因信號影響工作;野外露營時(shí),也能收看精彩的球賽,不為生活留下遺憾。
這正是一場AI與通信的“雙向奔赴”,也為構(gòu)建高質(zhì)量、低成本的未來多媒體通信基礎(chǔ)設(shè)施,提供了堅(jiān)實(shí)的技術(shù)底座與實(shí)踐范本。
娛樂圈沙雕打臉?biāo)男≌f—《頂流竟是沙雕,全網(wǎng)求姐姐滴滴代打》
強(qiáng)推4本字?jǐn)?shù)多看得爽的網(wǎng)絡(luò)小說,打發(fā)時(shí)間,輕松快樂!