智東西(公眾號:zhidxcom)作者王涵編輯漠影
智東西7月23日報道,7月11日,清華大學(xué)和生數(shù)科技發(fā)表合作論文,正式推出一種基于免訓(xùn)練方法的精準時間可控長時文生音頻系統(tǒng)FreeAudio。
論文鏈接:https://arxiv.org/abs/2507.08557
據(jù)介紹,該系統(tǒng)無需額外訓(xùn)練,可以基于自然語言文本與時間提示實現(xiàn)精確的時間控制與長時音頻生成,突破10秒時長限制,解鎖了10秒以上場景的文生音效時間精準可控。
該方法利用LLM對時間結(jié)構(gòu)進行規(guī)劃,將文本與時間提示解析為一系列互不重疊的時間窗口,并為每個窗口生成適配的自然語言描述。隨后,F(xiàn)reeAudio再依次生成各時間片段的音頻內(nèi)容,并通過上下文融合與參考引導(dǎo)機制實現(xiàn)最終的長時音頻合成。
目前相關(guān)研究成果已被計算機多媒體領(lǐng)域的國際頂級會議ACMMultimedia2025錄用,并由AC推薦為Oral錄取。
此前,生數(shù)科技曾聯(lián)合清華大學(xué)推出文生音效系統(tǒng),自稱是全球首個實現(xiàn)10秒內(nèi)精準時間控制的商業(yè)落地系統(tǒng),支持獨立時間窗音效生成,其多音軌時間窗可控功能已通過生數(shù)科技Vidu平臺落地商用。?
先從幾個例子感受一下:
1、狼嚎聲拼接蟋蟀聲:
https://oss.zhidx.com/eb72f1f7f0fd5d102a4692e98957f2b9/687fb580/uploads/2025/07/687f86d0b9137_687f86d0a345c_687f86d0a3429_%E7%8B%BC%E5%9A%8E%E5%A3%B0%E8%9F%8B%E8%9F%80%E5%A3%B0.wav
2、森林復(fù)合音效:
https://oss.zhidx.com/8b365cd023b789d05d853505ba4cb3d8/687fb580/uploads/2025/07/687f86f7e7496_687f86f7e0c74_687f86f7e0c49_%E6%A3%AE%E6%9E%97%E5%9C%BA%E6%99%AF%E5%A3%B0%E9%9F%B3%E5%90%88%E9%9B%86.wav
3、男聲吉他伴唱:
https://oss.zhidx.com/b95afc89f2ffe5b9a685c16471465b9c/687fb580/uploads/2025/07/687f87163e4ec_687f871637a08_687f8716379e0_%E7%94%B7%E5%A3%B0%E5%90%89%E4%BB%96%E4%BC%B4%E5%94%B1.wav
Demo鏈接:https://freeaudio.github.io/FreeAudio/
一、3大核心技術(shù),F(xiàn)reeAudio系統(tǒng)突破10秒時長瓶頸
文生音頻(T2A)生成技術(shù)雖在生成模型推動下取得進展,但受限于時間對齊的音頻-文本數(shù)據(jù)質(zhì)量和數(shù)量,現(xiàn)有系統(tǒng)在處理含精確時間控制的復(fù)雜文本提示時表現(xiàn)不佳。
即便部分研究通過數(shù)據(jù)增強或引入時間條件實現(xiàn)了10秒內(nèi)的時間可控生成,生成質(zhì)量仍有限。此外,多數(shù)公開音頻數(shù)據(jù)集時長較短(通常約10秒),且標注較粗,制約了細粒度時間控制和長時連貫性模型的發(fā)展。
清華大學(xué)和生數(shù)科技合作研發(fā)的FreeAudio系統(tǒng),能夠依據(jù)自然語言文本與時間提示,無需額外訓(xùn)練即可同時支持時間控制與長時生成,突破了10秒時長限制,其主要有3大核心技術(shù):
1、LLM規(guī)劃:
該系統(tǒng)利用大語言模型(LLM)的規(guī)劃能力,將文本和時間提示轉(zhuǎn)換為一系列非重疊時間窗口,每個窗口配有自然語言重新描述,解決時間重疊和間隙問題。
▲時間可控音頻生成的LLMPlanning和Decoupling&AggregatingAttentionControl模塊
2、解耦與聚合注意力控制:
在DiT-basedT2A模型基礎(chǔ)上,該系統(tǒng)對基礎(chǔ)潛變量按時間窗口分割,引導(dǎo)每個子段與對應(yīng)重新描述提示獨立進行交叉注意力計算,再將子段聚合整合,實現(xiàn)時間對齊和全局一致性。
▲長時音頻生成的整體架構(gòu)圖
3、長時生成優(yōu)化技術(shù):
(1)上下文潛變量合成:FreeAudio系統(tǒng)通過處理相鄰音頻段重疊區(qū)域,增強局部邊界平滑度;
(2)參考引導(dǎo):在自注意力模塊中,該系統(tǒng)利用參考音頻特征,維持長時音頻的全局一致性;
(3)上下文修剪與拼接:該系統(tǒng)去除重疊區(qū)域冗余部分,后將解碼后的段拼接,以生成最終長時音頻。
二、多項指標得分最優(yōu),長時生成能力排名第一
在時間可控音頻生成實驗中,在AudioCondition測試集上,F(xiàn)reeAudio系統(tǒng)的事件級(Eb)和片段級(At)得分均排名第一。
在客觀指標方面,F(xiàn)reeAudio系統(tǒng)的FAD和KL散度與最優(yōu)的訓(xùn)練型模型相當,CLAP分數(shù)排名第一。在主觀評估中,F(xiàn)reeAudio系統(tǒng)同樣獲得了最高的時間一致性與音頻可聽性評分。
進一步的消融實驗表明,參考引導(dǎo)技術(shù)有效提升了長時音頻的全局一致性,當λ在0.1至0.2范圍內(nèi)時,各項指標均表現(xiàn)最優(yōu),在同類設(shè)置中排名第一。
在長時生成性能上,針對26秒和90秒生成任務(wù),F(xiàn)reeAudio系統(tǒng)在多數(shù)指標上排名第一,在主觀評估中,其質(zhì)量、一致性和連貫性三個維度的得分均排名第一。
三、將繼續(xù)研究更長時長機制,F(xiàn)reeAudio或在Vidu產(chǎn)品端上線
此次推出的FreeAudio系統(tǒng)實現(xiàn)了新的技術(shù)突破,即突破10秒時長限制,能夠在10秒以上場景中實現(xiàn)文生音效的時間精準控制。
總的來說,該系統(tǒng)解決了多個行業(yè)痛點,如避免音效版權(quán)風(fēng)險,解決音效匹配難題;大幅降低音效制作成本;支持多音軌秒級對齊,如環(huán)境聲與動物鳴叫可精準疊加等。?
據(jù)了解,F(xiàn)reeAudio系統(tǒng)未來或?qū)⒖紤]在Vidu產(chǎn)品端上線。研發(fā)團隊計劃在未來進一步探索結(jié)合自然語言事件描述的訓(xùn)練式時間控制文本到音頻生成系統(tǒng),以提升時間對齊精度和音頻生成質(zhì)量。
在長時音頻生成方面,未來他們還計劃研究支持更長時長甚至無限長生成的機制,同時希望將該方法拓展至空間音頻生成等方向,以支持更多樣的聽覺場景。
結(jié)語:FreeAudio系統(tǒng)具備應(yīng)用潛力
隨著AI音頻生成技術(shù)的加速發(fā)展,市場對精準時間控制和長時音頻生成的需求日益凸顯,但現(xiàn)有方案在時長限制、版權(quán)風(fēng)險及制作成本等方面仍存在瓶頸。
FreeAudio系統(tǒng)突破了“10秒魔咒”,技術(shù)成果獲國際頂級會議認可,為行業(yè)提供了新的解決方案。未來隨著商業(yè)化落地及技術(shù)迭代,其在影視音效等領(lǐng)域的應(yīng)用潛力值得關(guān)注。
《血獄江湖》少年狂歌,胭脂香味,愛我所愛,江湖血獄,佛握屠刀
人都是復(fù)雜的,對于慶國的百姓來說,看到的是他金光閃閃的外衣,對于范閑的敵人來說,看到的卻是這層外衣下面辛辣的芥末【點擊下方,免費閱讀】3.《血獄江湖》作者:天雨寒武王府曾在江湖上赫赫有名,又被人稱為北府。與南境名劍院、四海飄零島并稱“武林三鼎”||。又有“南院北府飄零島”之稱。不過自從武 就在鳳翔城這塊連老鼠都琢磨冬眠的地兒,一個裹著紫衣的女人,一邊哆嗦一邊把個襁褓,悄么聲兒地擱武王府門口——這不是電視里演的尋常丟孩子,這娃日后名動江湖,姓林名屹,注定要把“江湖”這鍋老面糊,攪和個天翻地覆-。一眼掃去,這故事開頭高能——刀尖上過年似的緊張,“當江湖變成血獄,佛亦握屠刀”,..當江湖變成血獄,佛亦握屠刀,鐵骨崢嶸英雄無悔善惡輪回終有報!