智東西作者江宇編輯漠影
智東西7月24日?qǐng)?bào)道,今日,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)正式推出端到端同聲傳譯模型SeedLiveInterpret2.0。
這是首個(gè)在翻譯準(zhǔn)確率、語(yǔ)音延遲與聲音復(fù)刻三方面同時(shí)逼近專業(yè)同傳表現(xiàn)的產(chǎn)品級(jí)中英語(yǔ)音同傳系統(tǒng)。
在中英互譯任務(wù)中,SeedLiveInterpret2.0已達(dá)到業(yè)界最優(yōu)水平(SOTA),其譯文質(zhì)量、響應(yīng)速度與音色還原能力,在多項(xiàng)主客觀評(píng)測(cè)中均表現(xiàn)突出。
該系統(tǒng)采用全雙工語(yǔ)音理解與生成框架,支持“邊聽(tīng)邊說(shuō)”的實(shí)時(shí)傳譯,語(yǔ)音延遲最低可至2到3秒。同時(shí),它具備0樣本聲音復(fù)刻能力,無(wú)需預(yù)錄音,即可用說(shuō)話者的音色“說(shuō)出”外語(yǔ)。
當(dāng)前,SeedLiveInterpret2.0已通過(guò)火山引擎開(kāi)放試用,用戶可登錄控制臺(tái)體驗(yàn)語(yǔ)音模型“Doubao-同聲傳譯2.0”。
此外,OlaFriend耳機(jī)也計(jì)劃于8月底接入該系統(tǒng),成為首個(gè)支持其語(yǔ)音同傳能力的硬件設(shè)備。
技術(shù)報(bào)告與體驗(yàn)指路:
技術(shù)報(bào)告:http://arxiv.org/pdf/2507.17527
項(xiàng)目主頁(yè):https://seed.bytedance.com/seed_liveinterpret
體驗(yàn)鏈接:登錄火山引擎后,選擇語(yǔ)音模型“Doubao-同聲傳譯2.0”https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI
一、全雙工語(yǔ)音生成框架,實(shí)現(xiàn)真正“邊聽(tīng)邊說(shuō)”
字節(jié)Seed團(tuán)隊(duì)曾在2024年推出初代模型CLASI,解決了文本同傳的時(shí)延與專業(yè)性問(wèn)題,但仍不支持語(yǔ)音輸出。
時(shí)隔一年,團(tuán)隊(duì)在模型結(jié)構(gòu)、語(yǔ)音生成與訓(xùn)練策略上持續(xù)優(yōu)化,最終推出SeedLiveInterpret2.0,首次實(shí)現(xiàn)“邊聽(tīng)邊說(shuō)”的語(yǔ)音到語(yǔ)音同傳。
SeedLiveInterpret2.0引入了雙通路(duplex)語(yǔ)音理解與生成架構(gòu),這一端到端方案減少了中間環(huán)節(jié),在處理效率和翻譯準(zhǔn)確率上表現(xiàn)更優(yōu)。系統(tǒng)能邊接收源語(yǔ)言語(yǔ)音輸入,邊生成目標(biāo)語(yǔ)言語(yǔ)音輸出,且可實(shí)時(shí)處理多人說(shuō)話場(chǎng)景。
▲SeedLiveInterpret2.0的雙通路(duplex)語(yǔ)音理解與生成架構(gòu)(圖源:字節(jié)跳動(dòng)Seed)
尤其值得注意的是,相比傳統(tǒng)同傳系統(tǒng)需等待語(yǔ)音識(shí)別完成再生成譯文,SeedLiveInterpret2.0可在聽(tīng)音過(guò)程中同步生成目標(biāo)語(yǔ)音,實(shí)現(xiàn)平均約2.5秒內(nèi)完成首個(gè)譯句輸出(FLAL),顯著接近人類同傳表現(xiàn)。
▲圖為語(yǔ)音到語(yǔ)音同傳任務(wù)中,SeedLiveInterpret2.0與主流系統(tǒng)在翻譯質(zhì)量與延遲表現(xiàn)上的對(duì)比。(圖源:技術(shù)報(bào)告)
實(shí)測(cè)結(jié)果顯示,其語(yǔ)音翻譯延遲可低至2到3秒,相比傳統(tǒng)機(jī)器同傳系統(tǒng)平均減少了超過(guò)60%的等待時(shí)間,實(shí)現(xiàn)真正的“邊聽(tīng)邊說(shuō)”。
二、強(qiáng)化學(xué)習(xí)上場(chǎng),翻譯更智能、延遲再壓縮
盡管早期版本SeedLiveInterpret1.0在文本同傳已有不俗表現(xiàn),但如何兼顧音頻輸出的節(jié)奏感與準(zhǔn)確度,始終是AI同傳系統(tǒng)的關(guān)鍵難題。
為此,字節(jié)Seed團(tuán)隊(duì)引入強(qiáng)化學(xué)習(xí)機(jī)制,在延遲、譯文準(zhǔn)確率和節(jié)奏控制上進(jìn)行聯(lián)合建模優(yōu)化。
據(jù)技術(shù)報(bào)告描述,團(tuán)隊(duì)設(shè)計(jì)了融合單步反饋與全局反饋的雙重獎(jiǎng)勵(lì)機(jī)制,分別用于保障片段級(jí)語(yǔ)義一致性和整體譯文的邏輯連貫性。
在訓(xùn)練方法上,團(tuán)隊(duì)采用了兩階段流程:先通過(guò)單步獎(jiǎng)勵(lì)預(yù)熱模型,學(xué)習(xí)人類譯員的翻譯策略,再利用全局獎(jiǎng)勵(lì)機(jī)制優(yōu)化模型對(duì)整體語(yǔ)義與響應(yīng)延遲的控制。
這一機(jī)制顯著降低了模型生成輸出的滯后時(shí)間。如在長(zhǎng)文本中譯英任務(wù)中,經(jīng)過(guò)RL優(yōu)化后的SeedLiveInterpret2.0將語(yǔ)音輸出延遲從3.90秒降至2.37秒,翻譯質(zhì)量得分也從75.1提升至79.5。
▲圖為RealSI長(zhǎng)文本同傳基準(zhǔn)下的系統(tǒng)性能對(duì)比(圖源:技術(shù)報(bào)告)
模型還具備自適應(yīng)節(jié)奏控制能力,能夠根據(jù)語(yǔ)音輸入的清晰度與表達(dá)節(jié)奏,智能調(diào)整輸出時(shí)機(jī)與語(yǔ)速。
在長(zhǎng)時(shí)間演講等場(chǎng)景中,系統(tǒng)會(huì)主動(dòng)保持譯文與源語(yǔ)的節(jié)奏一致,避免“跟不上講話節(jié)奏”或“提前結(jié)束”等不同步問(wèn)題。
三、0樣本聲音復(fù)刻,譯音既準(zhǔn)又像“你”
SeedLiveInterpret2.0引入“0樣本聲音復(fù)刻”能力,只需實(shí)時(shí)采樣對(duì)話語(yǔ)音,系統(tǒng)便能學(xué)習(xí)并克隆用戶的音色特征,以“原聲”輸出目標(biāo)語(yǔ)種譯文。這一能力在真實(shí)會(huì)議、演講、跨語(yǔ)種溝通中極具實(shí)用價(jià)值,不僅降低理解門檻,也增強(qiáng)語(yǔ)義情緒的傳達(dá)。
在多輪語(yǔ)音評(píng)測(cè)中,SeedLiveInterpret2.0是唯一支持“中英雙向語(yǔ)音到語(yǔ)音同傳+聲音克隆”的系統(tǒng),其SVIP(語(yǔ)音譯文有效信息比例)在zh-en方向達(dá)到67.8,在en-zh方向達(dá)到64.7,音質(zhì)、節(jié)奏、語(yǔ)調(diào)高度擬人。
▲圖為語(yǔ)音到語(yǔ)音同傳任務(wù)中,SeedLiveInterpret2.0與主流系統(tǒng)在SVIP(語(yǔ)音譯文有效信息比例)上的對(duì)比。(圖源:技術(shù)報(bào)告)
得益于SeedLiveInterpret2.0的聲音復(fù)刻能力,用戶在與不同語(yǔ)言背景的人交流時(shí),依然能用自己的音色輸出外語(yǔ)譯文,在提升識(shí)別度的同時(shí),也增強(qiáng)了交流的親和力。
智東西第一時(shí)間進(jìn)行了試用,在“同聲傳譯”的過(guò)程中,系統(tǒng)對(duì)英文語(yǔ)音的翻譯響應(yīng)較快,音色復(fù)刻也具備一定相似度,能聽(tīng)出說(shuō)話者的語(yǔ)氣。
但整體仍存在一定延時(shí)感,特別在語(yǔ)速變化或語(yǔ)句較長(zhǎng)時(shí)更為明顯。
四、專業(yè)評(píng)測(cè)驗(yàn)證:翻譯準(zhǔn)確率達(dá)74.8分
為評(píng)估系統(tǒng)性能,字節(jié)Seed團(tuán)隊(duì)基于中英雙向RealSI標(biāo)準(zhǔn)數(shù)據(jù)集,邀請(qǐng)專業(yè)同傳譯員團(tuán)隊(duì)進(jìn)行人工打分。
結(jié)果顯示,在語(yǔ)音到語(yǔ)音翻譯任務(wù)中,其譯音質(zhì)量得分達(dá)66.3,顯著超過(guò)同類系統(tǒng)。在語(yǔ)音到文本的中英互譯任務(wù)中,SeedLiveInterpret2.0的平均翻譯質(zhì)量得分為74.8(滿分100),相比第二名系統(tǒng)高出58%。
▲圖示為語(yǔ)音到文本(S2T)和語(yǔ)音到語(yǔ)音(S2S)同傳任務(wù)中,人工評(píng)測(cè)的翻譯質(zhì)量與響應(yīng)效率結(jié)果。其中部分商業(yè)翻譯系統(tǒng)以字母代稱。(圖源:字節(jié)跳動(dòng)Seed)
同時(shí),在延遲方面,語(yǔ)音到文本場(chǎng)景中平均輸出首字延遲僅為2.21秒,語(yǔ)音到語(yǔ)音場(chǎng)景延遲為2.53秒,展現(xiàn)了質(zhì)量與速度的良好平衡。
系統(tǒng)在BLEURT、COMET等客觀翻譯指標(biāo)上同樣表現(xiàn)領(lǐng)先,且為唯一支持“聲音復(fù)刻”的評(píng)測(cè)系統(tǒng)。
在標(biāo)準(zhǔn)化測(cè)試中,SeedLiveInterpret2.0在中譯英(zh-en)與英譯中(en-zh)任務(wù)中均取得了最高的BLEURT和COMET得分,同時(shí)在延遲指標(biāo)AL(AverageLagging)、LAAL和FLAL上展現(xiàn)出良好平衡。
尤其在語(yǔ)音到語(yǔ)音(S2S)任務(wù)中,SeedLiveInterpret2.0在zh-en方向取得60.7/83.6的得分,在en-zh方向取得57.6/83.5的得分,并以2.17秒的FLAL達(dá)成最低延遲,整體表現(xiàn)領(lǐng)先同類系統(tǒng)。
▲圖示為客觀測(cè)評(píng)集的測(cè)評(píng)成績(jī),由于業(yè)界適合同傳場(chǎng)景的高質(zhì)量公開(kāi)測(cè)試數(shù)據(jù)較少,字節(jié)Seed團(tuán)隊(duì)整合了公開(kāi)數(shù)據(jù)與內(nèi)部數(shù)據(jù)集進(jìn)行測(cè)試。(圖源:字節(jié)跳動(dòng)Seed)
結(jié)語(yǔ):語(yǔ)言不再隔閡,AI真正走上同傳舞臺(tái)
從延遲、譯準(zhǔn)率到音色復(fù)刻,SeedLiveInterpret2.0已讓AI在同傳這條“最難登頂”的語(yǔ)言技術(shù)路徑上邁出了關(guān)鍵一步。技術(shù)側(cè)依托多模態(tài)訓(xùn)練與強(qiáng)化學(xué)習(xí)策略,產(chǎn)品層面則已具備跨語(yǔ)言實(shí)時(shí)演講、跨境會(huì)議、教育直播等落地能力。
盡管目前仍僅支持中英互譯,但這套端到端同傳框架的可擴(kuò)展性,為后續(xù)多語(yǔ)種拓展、情緒模仿和更多交互形式的翻譯任務(wù)奠定了基礎(chǔ)。
當(dāng)“聽(tīng)懂你說(shuō)什么”與“像你說(shuō)出來(lái)”同時(shí)成為可能,語(yǔ)言AI正在告別輔助工具的角色,真正走向人與人溝通的前臺(tái)舞臺(tái)。
你必須非常努力,才能看起來(lái)毫不費(fèi)力
你必須很努力,才能看起來(lái)毫不費(fèi)力
九句唯美精辟的句子,你必須非常努力,才能看起來(lái)毫不費(fèi)力
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。