智東西(公眾號:zhidxcom)作者王涵編輯漠影
智東西7月23日報(bào)道,7月11日,清華大學(xué)和生數(shù)科技發(fā)表合作論文,正式推出一種基于免訓(xùn)練方法的精準(zhǔn)時(shí)間可控長時(shí)文生音頻系統(tǒng)FreeAudio。
論文鏈接:https://arxiv.org/abs/2507.08557
據(jù)介紹,該系統(tǒng)無需額外訓(xùn)練,可以基于自然語言文本與時(shí)間提示實(shí)現(xiàn)精確的時(shí)間控制與長時(shí)音頻生成,突破10秒時(shí)長限制,解鎖了10秒以上場景的文生音效時(shí)間精準(zhǔn)可控。
該方法利用LLM對時(shí)間結(jié)構(gòu)進(jìn)行規(guī)劃,將文本與時(shí)間提示解析為一系列互不重疊的時(shí)間窗口,并為每個(gè)窗口生成適配的自然語言描述。隨后,F(xiàn)reeAudio再依次生成各時(shí)間片段的音頻內(nèi)容,并通過上下文融合與參考引導(dǎo)機(jī)制實(shí)現(xiàn)最終的長時(shí)音頻合成。
目前相關(guān)研究成果已被計(jì)算機(jī)多媒體領(lǐng)域的國際頂級會(huì)議ACMMultimedia2025錄用,并由AC推薦為Oral錄取。
此前,生數(shù)科技曾聯(lián)合清華大學(xué)推出文生音效系統(tǒng),自稱是全球首個(gè)實(shí)現(xiàn)10秒內(nèi)精準(zhǔn)時(shí)間控制的商業(yè)落地系統(tǒng),支持獨(dú)立時(shí)間窗音效生成,其多音軌時(shí)間窗可控功能已通過生數(shù)科技Vidu平臺(tái)落地商用。?
先從幾個(gè)例子感受一下:
1、狼嚎聲拼接蟋蟀聲:
https://oss.zhidx.com/eb72f1f7f0fd5d102a4692e98957f2b9/687fb580/uploads/2025/07/687f86d0b9137_687f86d0a345c_687f86d0a3429_%E7%8B%BC%E5%9A%8E%E5%A3%B0%E8%9F%8B%E8%9F%80%E5%A3%B0.wav
2、森林復(fù)合音效:
https://oss.zhidx.com/8b365cd023b789d05d853505ba4cb3d8/687fb580/uploads/2025/07/687f86f7e7496_687f86f7e0c74_687f86f7e0c49_%E6%A3%AE%E6%9E%97%E5%9C%BA%E6%99%AF%E5%A3%B0%E9%9F%B3%E5%90%88%E9%9B%86.wav
3、男聲吉他伴唱:
https://oss.zhidx.com/b95afc89f2ffe5b9a685c16471465b9c/687fb580/uploads/2025/07/687f87163e4ec_687f871637a08_687f8716379e0_%E7%94%B7%E5%A3%B0%E5%90%89%E4%BB%96%E4%BC%B4%E5%94%B1.wav
Demo鏈接:https://freeaudio.github.io/FreeAudio/
一、3大核心技術(shù),F(xiàn)reeAudio系統(tǒng)突破10秒時(shí)長瓶頸
文生音頻(T2A)生成技術(shù)雖在生成模型推動(dòng)下取得進(jìn)展,但受限于時(shí)間對齊的音頻-文本數(shù)據(jù)質(zhì)量和數(shù)量,現(xiàn)有系統(tǒng)在處理含精確時(shí)間控制的復(fù)雜文本提示時(shí)表現(xiàn)不佳。
即便部分研究通過數(shù)據(jù)增強(qiáng)或引入時(shí)間條件實(shí)現(xiàn)了10秒內(nèi)的時(shí)間可控生成,生成質(zhì)量仍有限。此外,多數(shù)公開音頻數(shù)據(jù)集時(shí)長較短(通常約10秒),且標(biāo)注較粗,制約了細(xì)粒度時(shí)間控制和長時(shí)連貫性模型的發(fā)展。
清華大學(xué)和生數(shù)科技合作研發(fā)的FreeAudio系統(tǒng),能夠依據(jù)自然語言文本與時(shí)間提示,無需額外訓(xùn)練即可同時(shí)支持時(shí)間控制與長時(shí)生成,突破了10秒時(shí)長限制,其主要有3大核心技術(shù):
1、LLM規(guī)劃:
該系統(tǒng)利用大語言模型(LLM)的規(guī)劃能力,將文本和時(shí)間提示轉(zhuǎn)換為一系列非重疊時(shí)間窗口,每個(gè)窗口配有自然語言重新描述,解決時(shí)間重疊和間隙問題。
▲時(shí)間可控音頻生成的LLMPlanning和Decoupling&AggregatingAttentionControl模塊
2、解耦與聚合注意力控制:
在DiT-basedT2A模型基礎(chǔ)上,該系統(tǒng)對基礎(chǔ)潛變量按時(shí)間窗口分割,引導(dǎo)每個(gè)子段與對應(yīng)重新描述提示獨(dú)立進(jìn)行交叉注意力計(jì)算,再將子段聚合整合,實(shí)現(xiàn)時(shí)間對齊和全局一致性。
▲長時(shí)音頻生成的整體架構(gòu)圖
3、長時(shí)生成優(yōu)化技術(shù):
(1)上下文潛變量合成:FreeAudio系統(tǒng)通過處理相鄰音頻段重疊區(qū)域,增強(qiáng)局部邊界平滑度;
(2)參考引導(dǎo):在自注意力模塊中,該系統(tǒng)利用參考音頻特征,維持長時(shí)音頻的全局一致性;
(3)上下文修剪與拼接:該系統(tǒng)去除重疊區(qū)域冗余部分,后將解碼后的段拼接,以生成最終長時(shí)音頻。
二、多項(xiàng)指標(biāo)得分最優(yōu),長時(shí)生成能力排名第一
在時(shí)間可控音頻生成實(shí)驗(yàn)中,在AudioCondition測試集上,F(xiàn)reeAudio系統(tǒng)的事件級(Eb)和片段級(At)得分均排名第一。
在客觀指標(biāo)方面,F(xiàn)reeAudio系統(tǒng)的FAD和KL散度與最優(yōu)的訓(xùn)練型模型相當(dāng),CLAP分?jǐn)?shù)排名第一。在主觀評估中,F(xiàn)reeAudio系統(tǒng)同樣獲得了最高的時(shí)間一致性與音頻可聽性評分。
進(jìn)一步的消融實(shí)驗(yàn)表明,參考引導(dǎo)技術(shù)有效提升了長時(shí)音頻的全局一致性,當(dāng)λ在0.1至0.2范圍內(nèi)時(shí),各項(xiàng)指標(biāo)均表現(xiàn)最優(yōu),在同類設(shè)置中排名第一。
在長時(shí)生成性能上,針對26秒和90秒生成任務(wù),F(xiàn)reeAudio系統(tǒng)在多數(shù)指標(biāo)上排名第一,在主觀評估中,其質(zhì)量、一致性和連貫性三個(gè)維度的得分均排名第一。
三、將繼續(xù)研究更長時(shí)長機(jī)制,F(xiàn)reeAudio或在Vidu產(chǎn)品端上線
此次推出的FreeAudio系統(tǒng)實(shí)現(xiàn)了新的技術(shù)突破,即突破10秒時(shí)長限制,能夠在10秒以上場景中實(shí)現(xiàn)文生音效的時(shí)間精準(zhǔn)控制。
總的來說,該系統(tǒng)解決了多個(gè)行業(yè)痛點(diǎn),如避免音效版權(quán)風(fēng)險(xiǎn),解決音效匹配難題;大幅降低音效制作成本;支持多音軌秒級對齊,如環(huán)境聲與動(dòng)物鳴叫可精準(zhǔn)疊加等。?
據(jù)了解,F(xiàn)reeAudio系統(tǒng)未來或?qū)⒖紤]在Vidu產(chǎn)品端上線。研發(fā)團(tuán)隊(duì)計(jì)劃在未來進(jìn)一步探索結(jié)合自然語言事件描述的訓(xùn)練式時(shí)間控制文本到音頻生成系統(tǒng),以提升時(shí)間對齊精度和音頻生成質(zhì)量。
在長時(shí)音頻生成方面,未來他們還計(jì)劃研究支持更長時(shí)長甚至無限長生成的機(jī)制,同時(shí)希望將該方法拓展至空間音頻生成等方向,以支持更多樣的聽覺場景。
結(jié)語:FreeAudio系統(tǒng)具備應(yīng)用潛力
隨著AI音頻生成技術(shù)的加速發(fā)展,市場對精準(zhǔn)時(shí)間控制和長時(shí)音頻生成的需求日益凸顯,但現(xiàn)有方案在時(shí)長限制、版權(quán)風(fēng)險(xiǎn)及制作成本等方面仍存在瓶頸。
FreeAudio系統(tǒng)突破了“10秒魔咒”,技術(shù)成果獲國際頂級會(huì)議認(rèn)可,為行業(yè)提供了新的解決方案。未來隨著商業(yè)化落地及技術(shù)迭代,其在影視音效等領(lǐng)域的應(yīng)用潛力值得關(guān)注。
免費(fèi)觀看-仙王的日常生活第二季/都市仙王第2集-云播放在線觀看...
免費(fèi)觀看-仙王的日常生活第二季/都市仙王第2集-云播放在線觀看-麻花電影仙王的日常生活第二季/都市仙王未知未知中國大陸動(dòng)漫上映播放|。麻花影視_麻花電影_麻花影院為您提供《仙王的日常生活第二季/都市仙王》迅雷下載、西瓜影音在線觀看。如果喜歡此影片,請記得關(guān)注我們網(wǎng)址: