作者:周源/華爾街見(jiàn)聞
技術(shù)的進(jìn)步不在于發(fā)明更復(fù)雜的工具,而在于讓工具更貼合人的需求。
——科技哲學(xué)家劉易斯?芒福德
全球化的推進(jìn)讓跨語(yǔ)言交流需求日增,在經(jīng)濟(jì)、文化、科技等活動(dòng)中,順暢溝通至關(guān)重要。
7月24日,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)推出端到端同聲傳譯模型SeedLiveInterpret2.0,在中英語(yǔ)音同傳的效率與效能上表現(xiàn)不俗。
據(jù)稱SeedLiveInterpret2.0是首個(gè)延遲&準(zhǔn)確率接近人類水平的產(chǎn)品級(jí)中英語(yǔ)音同傳系統(tǒng),在中英同傳翻譯質(zhì)量達(dá)到業(yè)界SOTA的同時(shí),實(shí)現(xiàn)了極低的語(yǔ)音延遲水平——這為跨語(yǔ)言交流提供了新選項(xiàng)。
這個(gè)模型引入了強(qiáng)化學(xué)習(xí)機(jī)制,在延遲、譯文準(zhǔn)確率和節(jié)奏控制上進(jìn)行聯(lián)合建模優(yōu)化,從技術(shù)原理上為低延遲提供了支持。
目前,該模型已全量上線火山方舟平臺(tái)。
SeedLiveInterpret2.0主要在同聲傳譯常見(jiàn)的延遲和準(zhǔn)確率問(wèn)題上實(shí)現(xiàn)了改進(jìn)。就公開(kāi)消息來(lái)看,其改進(jìn)幅度較大,但在真實(shí)場(chǎng)景中的實(shí)際體驗(yàn),仍需要時(shí)間做出回答。
傳統(tǒng)機(jī)器同傳系統(tǒng),需等語(yǔ)音識(shí)別完成后再翻譯生成譯文,延遲明顯,影響交流順暢度。
但SeedLiveInterpret2.0采用全雙工語(yǔ)音理解與生成框架,接收源語(yǔ)言語(yǔ)音時(shí)即可開(kāi)始生成目標(biāo)語(yǔ)言語(yǔ)音,一定程度上能實(shí)現(xiàn)“邊聽(tīng)邊處理”。
據(jù)官方信息,該系統(tǒng)能實(shí)現(xiàn)語(yǔ)音延遲低至2s-3s,較傳統(tǒng)機(jī)器同傳平均等待時(shí)間減少超60%;在語(yǔ)音到文本場(chǎng)景中,其輸出首字平均延遲僅2.21s,而在語(yǔ)音到語(yǔ)音場(chǎng)景中,輸出延時(shí)也只有2.53s。
翻譯準(zhǔn)確率方面,專業(yè)同傳譯員按中英雙向RealSI標(biāo)準(zhǔn)數(shù)據(jù)集打分,語(yǔ)音到文本的中英互譯平均得分74.8分(滿分100分);語(yǔ)音到語(yǔ)音翻譯譯音質(zhì)量得分66.3分。
中英雙向RealSI標(biāo)準(zhǔn)是字節(jié)跳動(dòng)Seed團(tuán)隊(duì)用于評(píng)估中英同聲傳譯系統(tǒng)性能的標(biāo)準(zhǔn)數(shù)據(jù)集。RealSI很可能是RemoteSimultaneousInterpretation(遠(yuǎn)程同聲傳譯)的縮寫(xiě)。
這些表現(xiàn)得益于團(tuán)隊(duì)技術(shù)調(diào)整。
引入雙通路語(yǔ)音理解與生成架構(gòu),減少中間環(huán)節(jié),有助提高效率和準(zhǔn)確度;同時(shí)運(yùn)用強(qiáng)化學(xué)習(xí)機(jī)制,在延遲、譯文準(zhǔn)確率和節(jié)奏控制上綜合優(yōu)化,設(shè)計(jì)結(jié)合單步與全局反饋的獎(jiǎng)勵(lì)機(jī)制,保障片段語(yǔ)義一致和整體邏輯連貫。
SeedLiveInterpret2.0具備“0樣本聲音復(fù)刻”功能:無(wú)需提前錄說(shuō)話人聲音,能實(shí)時(shí)采集對(duì)話語(yǔ)音即可模仿用戶音色,用“原聲”輸出目標(biāo)語(yǔ)言譯文。
在會(huì)議、演講等跨語(yǔ)種交流場(chǎng)景,這能降低聽(tīng)眾理解難度,更好傳遞說(shuō)話人語(yǔ)義和情緒,故而交流無(wú)滯澀,很自然。
在多次語(yǔ)音評(píng)測(cè)中,這套系統(tǒng)支持“中英雙向語(yǔ)音到語(yǔ)音同傳+聲音克隆”,SVIP(語(yǔ)音譯文有效信息比例)在zh-en方向67.8,en-zh方向64.7,音質(zhì)、節(jié)奏和語(yǔ)調(diào)接近真人。
如國(guó)際會(huì)議中,發(fā)言人能聽(tīng)到自身音色的外語(yǔ)譯文,利于把握節(jié)奏,也讓聽(tīng)眾更易接受信息。
語(yǔ)言學(xué)家諾姆?喬姆斯基認(rèn)為,語(yǔ)言不僅是交流工具,更是思維和情感載體。該功能在傳遞信息時(shí)也傳遞情感,讓交流更有溫度。
SeedLiveInterpret2.0的功能使其在多領(lǐng)域有用武之地。
比如在國(guó)際商務(wù)場(chǎng)景中,跨境談判、跨國(guó)會(huì)議對(duì)實(shí)時(shí)準(zhǔn)確翻譯需求極強(qiáng)。以往語(yǔ)言障礙導(dǎo)致翻譯環(huán)節(jié)耗時(shí)且質(zhì)量不穩(wěn),該模型或能提升商務(wù)溝通效率與準(zhǔn)確性,對(duì)國(guó)際貿(mào)易和投資有促進(jìn)作用。
在教育領(lǐng)域,跨國(guó)學(xué)術(shù)交流和國(guó)際在線課程增多。該模型能為師生提供實(shí)時(shí)翻譯,打破語(yǔ)言壁壘,方便獲取國(guó)外教育資源,促進(jìn)學(xué)術(shù)合作。
旅游場(chǎng)景也是雙語(yǔ)交流需求的強(qiáng)維度,目前出境人數(shù)增多,語(yǔ)言問(wèn)題常困擾游客。
若有人開(kāi)發(fā)出基于SeedLiveInterpret2.0模型的終端,比如整合進(jìn)智能手機(jī),那么終端就能成為更智能、體驗(yàn)更好的“隨身翻譯”,解決異國(guó)溝通麻煩。
字節(jié)跳動(dòng)Seed團(tuán)隊(duì)發(fā)布SeedLiveInterpret2.0,可能會(huì)給同聲傳譯行業(yè)帶來(lái)變化。
市場(chǎng)層面,以往同聲傳譯多依賴人工,成本高且資源有限。隨著機(jī)器同傳技術(shù)發(fā)展,這類系統(tǒng)可能占據(jù)一定市場(chǎng)份額。這會(huì)促使傳統(tǒng)服務(wù)提供者改進(jìn),如結(jié)合人工智能提升服務(wù)質(zhì)量和效率,適應(yīng)市場(chǎng)變化。
硬件設(shè)備制造商也迎來(lái)機(jī)會(huì)。OlaFriend耳機(jī)計(jì)劃8月底接入該系統(tǒng),成為首個(gè)支持其語(yǔ)音同傳功能的硬件。未來(lái)或有更多智能硬件與之結(jié)合,提供更方便的跨語(yǔ)言交流工具。
目前SeedLiveInterpret2.0僅支持中英互譯,但端到端同傳框架可擴(kuò)展,未來(lái)有望支持更多語(yǔ)言,方便不同語(yǔ)言交流。
除現(xiàn)有場(chǎng)景,這個(gè)系統(tǒng)在其他領(lǐng)域也有潛力。
比如智能客服,跨國(guó)公司可用其提供多語(yǔ)言服務(wù),提升體驗(yàn);影視作品跨國(guó)傳播時(shí)用其實(shí)時(shí)配音,方便觀眾用母語(yǔ)觀看,促進(jìn)文化交流。
所謂“技術(shù)的真正力量不在于它本身有多強(qiáng)大,而在于它能連接多少可能性”(凱文?凱利),該模型未來(lái)拓展正連接更多跨語(yǔ)言交流可能。
小說(shuō):大明開(kāi)局就登基!一天時(shí)間,我要為江山拼死一搏!
今日推薦:《大明開(kāi)局就登基》作者:物語(yǔ)000|。點(diǎn)擊文末超鏈接開(kāi)始觀看吧~第22章燧發(fā)槍顯神威“叮?!泵鬈婈囍卸芘瓶焖倬奂诩嘎湎虑?,形成一個(gè)盾頂,他們這一陣箭雨,絕大部分射在盾牌之上。雖然明軍防備的很及時(shí),但面對(duì)數(shù)萬(wàn)支箭矢,不可能做到滴水不漏,還是有幾百人中箭失去戰(zhàn)斗力|——。戚繼光怒目喝一聲 今日推薦:《大明開(kāi)局就登基》作者:物語(yǔ)000。點(diǎn)擊文末超鏈接開(kāi)始觀看吧~第389章奇襲赤坎樓“水師將士們,看準(zhǔn)城頭人多的地方,換開(kāi)花彈給我來(lái)輪齊射,龍旗軍將士準(zhǔn)備登陸?!薄笆恰崩疃▏?guó)一聲令下,二十艘風(fēng)帆戰(zhàn)艦立即轉(zhuǎn)舵,艦炮瞄準(zhǔn)赤坎樓城頭——??吹阶约覒?zhàn)艦突然露出無(wú)數(shù)黑洞洞的炮口,城上紅毛番哪里能想到希望你能滿意。