作者:周源/華爾街見聞
技術(shù)的進(jìn)步不在于發(fā)明更復(fù)雜的工具,而在于讓工具更貼合人的需求。
——科技哲學(xué)家劉易斯?芒福德
全球化的推進(jìn)讓跨語言交流需求日增,在經(jīng)濟(jì)、文化、科技等活動(dòng)中,順暢溝通至關(guān)重要。
7月24日,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)推出端到端同聲傳譯模型SeedLiveInterpret2.0,在中英語音同傳的效率與效能上表現(xiàn)不俗。
據(jù)稱SeedLiveInterpret2.0是首個(gè)延遲&準(zhǔn)確率接近人類水平的產(chǎn)品級(jí)中英語音同傳系統(tǒng),在中英同傳翻譯質(zhì)量達(dá)到業(yè)界SOTA的同時(shí),實(shí)現(xiàn)了極低的語音延遲水平——這為跨語言交流提供了新選項(xiàng)。
這個(gè)模型引入了強(qiáng)化學(xué)習(xí)機(jī)制,在延遲、譯文準(zhǔn)確率和節(jié)奏控制上進(jìn)行聯(lián)合建模優(yōu)化,從技術(shù)原理上為低延遲提供了支持。
目前,該模型已全量上線火山方舟平臺(tái)。
SeedLiveInterpret2.0主要在同聲傳譯常見的延遲和準(zhǔn)確率問題上實(shí)現(xiàn)了改進(jìn)。就公開消息來看,其改進(jìn)幅度較大,但在真實(shí)場(chǎng)景中的實(shí)際體驗(yàn),仍需要時(shí)間做出回答。
傳統(tǒng)機(jī)器同傳系統(tǒng),需等語音識(shí)別完成后再翻譯生成譯文,延遲明顯,影響交流順暢度。
但SeedLiveInterpret2.0采用全雙工語音理解與生成框架,接收源語言語音時(shí)即可開始生成目標(biāo)語言語音,一定程度上能實(shí)現(xiàn)“邊聽邊處理”。
據(jù)官方信息,該系統(tǒng)能實(shí)現(xiàn)語音延遲低至2s-3s,較傳統(tǒng)機(jī)器同傳平均等待時(shí)間減少超60%;在語音到文本場(chǎng)景中,其輸出首字平均延遲僅2.21s,而在語音到語音場(chǎng)景中,輸出延時(shí)也只有2.53s。
翻譯準(zhǔn)確率方面,專業(yè)同傳譯員按中英雙向RealSI標(biāo)準(zhǔn)數(shù)據(jù)集打分,語音到文本的中英互譯平均得分74.8分(滿分100分);語音到語音翻譯譯音質(zhì)量得分66.3分。
中英雙向RealSI標(biāo)準(zhǔn)是字節(jié)跳動(dòng)Seed團(tuán)隊(duì)用于評(píng)估中英同聲傳譯系統(tǒng)性能的標(biāo)準(zhǔn)數(shù)據(jù)集。RealSI很可能是RemoteSimultaneousInterpretation(遠(yuǎn)程同聲傳譯)的縮寫。
這些表現(xiàn)得益于團(tuán)隊(duì)技術(shù)調(diào)整。
引入雙通路語音理解與生成架構(gòu),減少中間環(huán)節(jié),有助提高效率和準(zhǔn)確度;同時(shí)運(yùn)用強(qiáng)化學(xué)習(xí)機(jī)制,在延遲、譯文準(zhǔn)確率和節(jié)奏控制上綜合優(yōu)化,設(shè)計(jì)結(jié)合單步與全局反饋的獎(jiǎng)勵(lì)機(jī)制,保障片段語義一致和整體邏輯連貫。
SeedLiveInterpret2.0具備“0樣本聲音復(fù)刻”功能:無需提前錄說話人聲音,能實(shí)時(shí)采集對(duì)話語音即可模仿用戶音色,用“原聲”輸出目標(biāo)語言譯文。
在會(huì)議、演講等跨語種交流場(chǎng)景,這能降低聽眾理解難度,更好傳遞說話人語義和情緒,故而交流無滯澀,很自然。
在多次語音評(píng)測(cè)中,這套系統(tǒng)支持“中英雙向語音到語音同傳+聲音克隆”,SVIP(語音譯文有效信息比例)在zh-en方向67.8,en-zh方向64.7,音質(zhì)、節(jié)奏和語調(diào)接近真人。
如國(guó)際會(huì)議中,發(fā)言人能聽到自身音色的外語譯文,利于把握節(jié)奏,也讓聽眾更易接受信息。
語言學(xué)家諾姆?喬姆斯基認(rèn)為,語言不僅是交流工具,更是思維和情感載體。該功能在傳遞信息時(shí)也傳遞情感,讓交流更有溫度。
SeedLiveInterpret2.0的功能使其在多領(lǐng)域有用武之地。
比如在國(guó)際商務(wù)場(chǎng)景中,跨境談判、跨國(guó)會(huì)議對(duì)實(shí)時(shí)準(zhǔn)確翻譯需求極強(qiáng)。以往語言障礙導(dǎo)致翻譯環(huán)節(jié)耗時(shí)且質(zhì)量不穩(wěn),該模型或能提升商務(wù)溝通效率與準(zhǔn)確性,對(duì)國(guó)際貿(mào)易和投資有促進(jìn)作用。
在教育領(lǐng)域,跨國(guó)學(xué)術(shù)交流和國(guó)際在線課程增多。該模型能為師生提供實(shí)時(shí)翻譯,打破語言壁壘,方便獲取國(guó)外教育資源,促進(jìn)學(xué)術(shù)合作。
旅游場(chǎng)景也是雙語交流需求的強(qiáng)維度,目前出境人數(shù)增多,語言問題常困擾游客。
若有人開發(fā)出基于SeedLiveInterpret2.0模型的終端,比如整合進(jìn)智能手機(jī),那么終端就能成為更智能、體驗(yàn)更好的“隨身翻譯”,解決異國(guó)溝通麻煩。
字節(jié)跳動(dòng)Seed團(tuán)隊(duì)發(fā)布SeedLiveInterpret2.0,可能會(huì)給同聲傳譯行業(yè)帶來變化。
市場(chǎng)層面,以往同聲傳譯多依賴人工,成本高且資源有限。隨著機(jī)器同傳技術(shù)發(fā)展,這類系統(tǒng)可能占據(jù)一定市場(chǎng)份額。這會(huì)促使傳統(tǒng)服務(wù)提供者改進(jìn),如結(jié)合人工智能提升服務(wù)質(zhì)量和效率,適應(yīng)市場(chǎng)變化。
硬件設(shè)備制造商也迎來機(jī)會(huì)。OlaFriend耳機(jī)計(jì)劃8月底接入該系統(tǒng),成為首個(gè)支持其語音同傳功能的硬件。未來或有更多智能硬件與之結(jié)合,提供更方便的跨語言交流工具。
目前SeedLiveInterpret2.0僅支持中英互譯,但端到端同傳框架可擴(kuò)展,未來有望支持更多語言,方便不同語言交流。
除現(xiàn)有場(chǎng)景,這個(gè)系統(tǒng)在其他領(lǐng)域也有潛力。
比如智能客服,跨國(guó)公司可用其提供多語言服務(wù),提升體驗(yàn);影視作品跨國(guó)傳播時(shí)用其實(shí)時(shí)配音,方便觀眾用母語觀看,促進(jìn)文化交流。
所謂“技術(shù)的真正力量不在于它本身有多強(qiáng)大,而在于它能連接多少可能性”(凱文?凱利),該模型未來拓展正連接更多跨語言交流可能。
如何更有效地準(zhǔn)備公務(wù)員考試???知乎
一篇文章,教你搞定消息寫作考試盲點(diǎn)!??知乎
出發(fā)作文600字師姐奔赴前程??百度文庫(kù)