#河北強降雨引發(fā)內(nèi)澇現(xiàn)場直擊#
智東西作者江宇編輯漠影
智東西7月24日報道,今日,字節(jié)跳動Seed團隊正式推出端到端同聲傳譯模型SeedLiveInterpret2.0。
這是首個在翻譯準確率、語音延遲與聲音復刻三方面同時逼近專業(yè)同傳表現(xiàn)的產(chǎn)品級中英語音同傳系統(tǒng)。
在中英互譯任務中,SeedLiveInterpret2.0已達到業(yè)界最優(yōu)水平(SOTA),其譯文質(zhì)量、響應速度與音色還原能力,在多項主客觀評測中均表現(xiàn)突出。
該系統(tǒng)采用全雙工語音理解與生成框架,支持“邊聽邊說”的實時傳譯,語音延遲最低可至2到3秒。同時,它具備0樣本聲音復刻能力,無需預錄音,即可用說話者的音色“說出”外語。
當前,SeedLiveInterpret2.0已通過火山引擎開放試用,用戶可登錄控制臺體驗語音模型“Doubao-同聲傳譯2.0”。
此外,OlaFriend耳機也計劃于8月底接入該系統(tǒng),成為首個支持其語音同傳能力的硬件設備。
技術(shù)報告與體驗指路:
技術(shù)報告:http://arxiv.org/pdf/2507.17527
項目主頁:https://seed.bytedance.com/seed_liveinterpret
體驗鏈接:登錄火山引擎后,選擇語音模型“Doubao-同聲傳譯2.0”https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI
一、全雙工語音生成框架,實現(xiàn)真正“邊聽邊說”
字節(jié)Seed團隊曾在2024年推出初代模型CLASI,解決了文本同傳的時延與專業(yè)性問題,但仍不支持語音輸出。
時隔一年,團隊在模型結(jié)構(gòu)、語音生成與訓練策略上持續(xù)優(yōu)化,最終推出SeedLiveInterpret2.0,首次實現(xiàn)“邊聽邊說”的語音到語音同傳。
SeedLiveInterpret2.0引入了雙通路(duplex)語音理解與生成架構(gòu),這一端到端方案減少了中間環(huán)節(jié),在處理效率和翻譯準確率上表現(xiàn)更優(yōu)。系統(tǒng)能邊接收源語言語音輸入,邊生成目標語言語音輸出,且可實時處理多人說話場景。
▲SeedLiveInterpret2.0的雙通路(duplex)語音理解與生成架構(gòu)(圖源:字節(jié)跳動Seed)
尤其值得注意的是,相比傳統(tǒng)同傳系統(tǒng)需等待語音識別完成再生成譯文,SeedLiveInterpret2.0可在聽音過程中同步生成目標語音,實現(xiàn)平均約2.5秒內(nèi)完成首個譯句輸出(FLAL),顯著接近人類同傳表現(xiàn)。
▲圖為語音到語音同傳任務中,SeedLiveInterpret2.0與主流系統(tǒng)在翻譯質(zhì)量與延遲表現(xiàn)上的對比。(圖源:技術(shù)報告)
實測結(jié)果顯示,其語音翻譯延遲可低至2到3秒,相比傳統(tǒng)機器同傳系統(tǒng)平均減少了超過60%的等待時間,實現(xiàn)真正的“邊聽邊說”。
二、強化學習上場,翻譯更智能、延遲再壓縮
盡管早期版本SeedLiveInterpret1.0在文本同傳已有不俗表現(xiàn),但如何兼顧音頻輸出的節(jié)奏感與準確度,始終是AI同傳系統(tǒng)的關(guān)鍵難題。
為此,字節(jié)Seed團隊引入強化學習機制,在延遲、譯文準確率和節(jié)奏控制上進行聯(lián)合建模優(yōu)化。
據(jù)技術(shù)報告描述,團隊設計了融合單步反饋與全局反饋的雙重獎勵機制,分別用于保障片段級語義一致性和整體譯文的邏輯連貫性。
在訓練方法上,團隊采用了兩階段流程:先通過單步獎勵預熱模型,學習人類譯員的翻譯策略,再利用全局獎勵機制優(yōu)化模型對整體語義與響應延遲的控制。
這一機制顯著降低了模型生成輸出的滯后時間。如在長文本中譯英任務中,經(jīng)過RL優(yōu)化后的SeedLiveInterpret2.0將語音輸出延遲從3.90秒降至2.37秒,翻譯質(zhì)量得分也從75.1提升至79.5。
▲圖為RealSI長文本同傳基準下的系統(tǒng)性能對比(圖源:技術(shù)報告)
模型還具備自適應節(jié)奏控制能力,能夠根據(jù)語音輸入的清晰度與表達節(jié)奏,智能調(diào)整輸出時機與語速。
在長時間演講等場景中,系統(tǒng)會主動保持譯文與源語的節(jié)奏一致,避免“跟不上講話節(jié)奏”或“提前結(jié)束”等不同步問題。
三、0樣本聲音復刻,譯音既準又像“你”
SeedLiveInterpret2.0引入“0樣本聲音復刻”能力,只需實時采樣對話語音,系統(tǒng)便能學習并克隆用戶的音色特征,以“原聲”輸出目標語種譯文。這一能力在真實會議、演講、跨語種溝通中極具實用價值,不僅降低理解門檻,也增強語義情緒的傳達。
在多輪語音評測中,SeedLiveInterpret2.0是唯一支持“中英雙向語音到語音同傳+聲音克隆”的系統(tǒng),其SVIP(語音譯文有效信息比例)在zh-en方向達到67.8,在en-zh方向達到64.7,音質(zhì)、節(jié)奏、語調(diào)高度擬人。
▲圖為語音到語音同傳任務中,SeedLiveInterpret2.0與主流系統(tǒng)在SVIP(語音譯文有效信息比例)上的對比。(圖源:技術(shù)報告)
得益于SeedLiveInterpret2.0的聲音復刻能力,用戶在與不同語言背景的人交流時,依然能用自己的音色輸出外語譯文,在提升識別度的同時,也增強了交流的親和力。
智東西第一時間進行了試用,在“同聲傳譯”的過程中,系統(tǒng)對英文語音的翻譯響應較快,音色復刻也具備一定相似度,能聽出說話者的語氣。
但整體仍存在一定延時感,特別在語速變化或語句較長時更為明顯。
四、專業(yè)評測驗證:翻譯準確率達74.8分
為評估系統(tǒng)性能,字節(jié)Seed團隊基于中英雙向RealSI標準數(shù)據(jù)集,邀請專業(yè)同傳譯員團隊進行人工打分。
結(jié)果顯示,在語音到語音翻譯任務中,其譯音質(zhì)量得分達66.3,顯著超過同類系統(tǒng)。在語音到文本的中英互譯任務中,SeedLiveInterpret2.0的平均翻譯質(zhì)量得分為74.8(滿分100),相比第二名系統(tǒng)高出58%。
▲圖示為語音到文本(S2T)和語音到語音(S2S)同傳任務中,人工評測的翻譯質(zhì)量與響應效率結(jié)果。其中部分商業(yè)翻譯系統(tǒng)以字母代稱。(圖源:字節(jié)跳動Seed)
同時,在延遲方面,語音到文本場景中平均輸出首字延遲僅為2.21秒,語音到語音場景延遲為2.53秒,展現(xiàn)了質(zhì)量與速度的良好平衡。
系統(tǒng)在BLEURT、COMET等客觀翻譯指標上同樣表現(xiàn)領(lǐng)先,且為唯一支持“聲音復刻”的評測系統(tǒng)。
在標準化測試中,SeedLiveInterpret2.0在中譯英(zh-en)與英譯中(en-zh)任務中均取得了最高的BLEURT和COMET得分,同時在延遲指標AL(AverageLagging)、LAAL和FLAL上展現(xiàn)出良好平衡。
尤其在語音到語音(S2S)任務中,SeedLiveInterpret2.0在zh-en方向取得60.7/83.6的得分,在en-zh方向取得57.6/83.5的得分,并以2.17秒的FLAL達成最低延遲,整體表現(xiàn)領(lǐng)先同類系統(tǒng)。
▲圖示為客觀測評集的測評成績,由于業(yè)界適合同傳場景的高質(zhì)量公開測試數(shù)據(jù)較少,字節(jié)Seed團隊整合了公開數(shù)據(jù)與內(nèi)部數(shù)據(jù)集進行測試。(圖源:字節(jié)跳動Seed)
結(jié)語:語言不再隔閡,AI真正走上同傳舞臺
從延遲、譯準率到音色復刻,SeedLiveInterpret2.0已讓AI在同傳這條“最難登頂”的語言技術(shù)路徑上邁出了關(guān)鍵一步。技術(shù)側(cè)依托多模態(tài)訓練與強化學習策略,產(chǎn)品層面則已具備跨語言實時演講、跨境會議、教育直播等落地能力。
盡管目前仍僅支持中英互譯,但這套端到端同傳框架的可擴展性,為后續(xù)多語種拓展、情緒模仿和更多交互形式的翻譯任務奠定了基礎。
當“聽懂你說什么”與“像你說出來”同時成為可能,語言AI正在告別輔助工具的角色,真正走向人與人溝通的前臺舞臺。
貞觀賢王:唐高宗身為小王爺,女皇威力無比,秦瓊之子開啟封王生涯!
貞觀賢王:秦懷道,大唐一顆耀眼的封王新星
黑馬神作《貞觀賢王》,讓人回味無窮的細節(jié),看完直呼爽爆了