智東西(公眾號:zhidxcom)作者王涵編輯漠影
智東西7月23日報道,7月11日,清華大學和生數科技發(fā)表合作論文,正式推出一種基于免訓練方法的精準時間可控長時文生音頻系統FreeAudio。
論文鏈接:https://arxiv.org/abs/2507.08557
據介紹,該系統無需額外訓練,可以基于自然語言文本與時間提示實現精確的時間控制與長時音頻生成,突破10秒時長限制,解鎖了10秒以上場景的文生音效時間精準可控。
該方法利用LLM對時間結構進行規(guī)劃,將文本與時間提示解析為一系列互不重疊的時間窗口,并為每個窗口生成適配的自然語言描述。隨后,FreeAudio再依次生成各時間片段的音頻內容,并通過上下文融合與參考引導機制實現最終的長時音頻合成。
目前相關研究成果已被計算機多媒體領域的國際頂級會議ACMMultimedia2025錄用,并由AC推薦為Oral錄取。
此前,生數科技曾聯合清華大學推出文生音效系統,自稱是全球首個實現10秒內精準時間控制的商業(yè)落地系統,支持獨立時間窗音效生成,其多音軌時間窗可控功能已通過生數科技Vidu平臺落地商用。?
先從幾個例子感受一下:
1、狼嚎聲拼接蟋蟀聲:
https://oss.zhidx.com/eb72f1f7f0fd5d102a4692e98957f2b9/687fb580/uploads/2025/07/687f86d0b9137_687f86d0a345c_687f86d0a3429_%E7%8B%BC%E5%9A%8E%E5%A3%B0%E8%9F%8B%E8%9F%80%E5%A3%B0.wav
2、森林復合音效:
https://oss.zhidx.com/8b365cd023b789d05d853505ba4cb3d8/687fb580/uploads/2025/07/687f86f7e7496_687f86f7e0c74_687f86f7e0c49_%E6%A3%AE%E6%9E%97%E5%9C%BA%E6%99%AF%E5%A3%B0%E9%9F%B3%E5%90%88%E9%9B%86.wav
3、男聲吉他伴唱:
https://oss.zhidx.com/b95afc89f2ffe5b9a685c16471465b9c/687fb580/uploads/2025/07/687f87163e4ec_687f871637a08_687f8716379e0_%E7%94%B7%E5%A3%B0%E5%90%89%E4%BB%96%E4%BC%B4%E5%94%B1.wav
Demo鏈接:https://freeaudio.github.io/FreeAudio/
一、3大核心技術,FreeAudio系統突破10秒時長瓶頸
文生音頻(T2A)生成技術雖在生成模型推動下取得進展,但受限于時間對齊的音頻-文本數據質量和數量,現有系統在處理含精確時間控制的復雜文本提示時表現不佳。
即便部分研究通過數據增強或引入時間條件實現了10秒內的時間可控生成,生成質量仍有限。此外,多數公開音頻數據集時長較短(通常約10秒),且標注較粗,制約了細粒度時間控制和長時連貫性模型的發(fā)展。
清華大學和生數科技合作研發(fā)的FreeAudio系統,能夠依據自然語言文本與時間提示,無需額外訓練即可同時支持時間控制與長時生成,突破了10秒時長限制,其主要有3大核心技術:
1、LLM規(guī)劃:
該系統利用大語言模型(LLM)的規(guī)劃能力,將文本和時間提示轉換為一系列非重疊時間窗口,每個窗口配有自然語言重新描述,解決時間重疊和間隙問題。
▲時間可控音頻生成的LLMPlanning和Decoupling&AggregatingAttentionControl模塊
2、解耦與聚合注意力控制:
在DiT-basedT2A模型基礎上,該系統對基礎潛變量按時間窗口分割,引導每個子段與對應重新描述提示獨立進行交叉注意力計算,再將子段聚合整合,實現時間對齊和全局一致性。
▲長時音頻生成的整體架構圖
3、長時生成優(yōu)化技術:
(1)上下文潛變量合成:FreeAudio系統通過處理相鄰音頻段重疊區(qū)域,增強局部邊界平滑度;
(2)參考引導:在自注意力模塊中,該系統利用參考音頻特征,維持長時音頻的全局一致性;
(3)上下文修剪與拼接:該系統去除重疊區(qū)域冗余部分,后將解碼后的段拼接,以生成最終長時音頻。
二、多項指標得分最優(yōu),長時生成能力排名第一
在時間可控音頻生成實驗中,在AudioCondition測試集上,FreeAudio系統的事件級(Eb)和片段級(At)得分均排名第一。
在客觀指標方面,FreeAudio系統的FAD和KL散度與最優(yōu)的訓練型模型相當,CLAP分數排名第一。在主觀評估中,FreeAudio系統同樣獲得了最高的時間一致性與音頻可聽性評分。
進一步的消融實驗表明,參考引導技術有效提升了長時音頻的全局一致性,當λ在0.1至0.2范圍內時,各項指標均表現最優(yōu),在同類設置中排名第一。
在長時生成性能上,針對26秒和90秒生成任務,FreeAudio系統在多數指標上排名第一,在主觀評估中,其質量、一致性和連貫性三個維度的得分均排名第一。
三、將繼續(xù)研究更長時長機制,FreeAudio或在Vidu產品端上線
此次推出的FreeAudio系統實現了新的技術突破,即突破10秒時長限制,能夠在10秒以上場景中實現文生音效的時間精準控制。
總的來說,該系統解決了多個行業(yè)痛點,如避免音效版權風險,解決音效匹配難題;大幅降低音效制作成本;支持多音軌秒級對齊,如環(huán)境聲與動物鳴叫可精準疊加等。?
據了解,FreeAudio系統未來或將考慮在Vidu產品端上線。研發(fā)團隊計劃在未來進一步探索結合自然語言事件描述的訓練式時間控制文本到音頻生成系統,以提升時間對齊精度和音頻生成質量。
在長時音頻生成方面,未來他們還計劃研究支持更長時長甚至無限長生成的機制,同時希望將該方法拓展至空間音頻生成等方向,以支持更多樣的聽覺場景。
結語:FreeAudio系統具備應用潛力
隨著AI音頻生成技術的加速發(fā)展,市場對精準時間控制和長時音頻生成的需求日益凸顯,但現有方案在時長限制、版權風險及制作成本等方面仍存在瓶頸。
FreeAudio系統突破了“10秒魔咒”,技術成果獲國際頂級會議認可,為行業(yè)提供了新的解決方案。未來隨著商業(yè)化落地及技術迭代,其在影視音效等領域的應用潛力值得關注。
報考必看!2025年軟考高級報考指南
2025年軟考系統集成項目管理工程師考試報名時間及入口
想考證必須要知道的事
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。