作者:周源/華爾街見聞
技術(shù)的進步不在于發(fā)明更復(fù)雜的工具,而在于讓工具更貼合人的需求。
——科技哲學(xué)家劉易斯?芒福德
全球化的推進讓跨語言交流需求日增,在經(jīng)濟、文化、科技等活動中,順暢溝通至關(guān)重要。
7月24日,字節(jié)跳動Seed團隊推出端到端同聲傳譯模型SeedLiveInterpret2.0,在中英語音同傳的效率與效能上表現(xiàn)不俗。
據(jù)稱SeedLiveInterpret2.0是首個延遲&準(zhǔn)確率接近人類水平的產(chǎn)品級中英語音同傳系統(tǒng),在中英同傳翻譯質(zhì)量達到業(yè)界SOTA的同時,實現(xiàn)了極低的語音延遲水平——這為跨語言交流提供了新選項。
這個模型引入了強化學(xué)習(xí)機制,在延遲、譯文準(zhǔn)確率和節(jié)奏控制上進行聯(lián)合建模優(yōu)化,從技術(shù)原理上為低延遲提供了支持。
目前,該模型已全量上線火山方舟平臺。
SeedLiveInterpret2.0主要在同聲傳譯常見的延遲和準(zhǔn)確率問題上實現(xiàn)了改進。就公開消息來看,其改進幅度較大,但在真實場景中的實際體驗,仍需要時間做出回答。
傳統(tǒng)機器同傳系統(tǒng),需等語音識別完成后再翻譯生成譯文,延遲明顯,影響交流順暢度。
但SeedLiveInterpret2.0采用全雙工語音理解與生成框架,接收源語言語音時即可開始生成目標(biāo)語言語音,一定程度上能實現(xiàn)“邊聽邊處理”。
據(jù)官方信息,該系統(tǒng)能實現(xiàn)語音延遲低至2s-3s,較傳統(tǒng)機器同傳平均等待時間減少超60%;在語音到文本場景中,其輸出首字平均延遲僅2.21s,而在語音到語音場景中,輸出延時也只有2.53s。
翻譯準(zhǔn)確率方面,專業(yè)同傳譯員按中英雙向RealSI標(biāo)準(zhǔn)數(shù)據(jù)集打分,語音到文本的中英互譯平均得分74.8分(滿分100分);語音到語音翻譯譯音質(zhì)量得分66.3分。
中英雙向RealSI標(biāo)準(zhǔn)是字節(jié)跳動Seed團隊用于評估中英同聲傳譯系統(tǒng)性能的標(biāo)準(zhǔn)數(shù)據(jù)集。RealSI很可能是RemoteSimultaneousInterpretation(遠程同聲傳譯)的縮寫。
這些表現(xiàn)得益于團隊技術(shù)調(diào)整。
引入雙通路語音理解與生成架構(gòu),減少中間環(huán)節(jié),有助提高效率和準(zhǔn)確度;同時運用強化學(xué)習(xí)機制,在延遲、譯文準(zhǔn)確率和節(jié)奏控制上綜合優(yōu)化,設(shè)計結(jié)合單步與全局反饋的獎勵機制,保障片段語義一致和整體邏輯連貫。
SeedLiveInterpret2.0具備“0樣本聲音復(fù)刻”功能:無需提前錄說話人聲音,能實時采集對話語音即可模仿用戶音色,用“原聲”輸出目標(biāo)語言譯文。
在會議、演講等跨語種交流場景,這能降低聽眾理解難度,更好傳遞說話人語義和情緒,故而交流無滯澀,很自然。
在多次語音評測中,這套系統(tǒng)支持“中英雙向語音到語音同傳+聲音克隆”,SVIP(語音譯文有效信息比例)在zh-en方向67.8,en-zh方向64.7,音質(zhì)、節(jié)奏和語調(diào)接近真人。
如國際會議中,發(fā)言人能聽到自身音色的外語譯文,利于把握節(jié)奏,也讓聽眾更易接受信息。
語言學(xué)家諾姆?喬姆斯基認為,語言不僅是交流工具,更是思維和情感載體。該功能在傳遞信息時也傳遞情感,讓交流更有溫度。
SeedLiveInterpret2.0的功能使其在多領(lǐng)域有用武之地。
比如在國際商務(wù)場景中,跨境談判、跨國會議對實時準(zhǔn)確翻譯需求極強。以往語言障礙導(dǎo)致翻譯環(huán)節(jié)耗時且質(zhì)量不穩(wěn),該模型或能提升商務(wù)溝通效率與準(zhǔn)確性,對國際貿(mào)易和投資有促進作用。
在教育領(lǐng)域,跨國學(xué)術(shù)交流和國際在線課程增多。該模型能為師生提供實時翻譯,打破語言壁壘,方便獲取國外教育資源,促進學(xué)術(shù)合作。
旅游場景也是雙語交流需求的強維度,目前出境人數(shù)增多,語言問題常困擾游客。
若有人開發(fā)出基于SeedLiveInterpret2.0模型的終端,比如整合進智能手機,那么終端就能成為更智能、體驗更好的“隨身翻譯”,解決異國溝通麻煩。
字節(jié)跳動Seed團隊發(fā)布SeedLiveInterpret2.0,可能會給同聲傳譯行業(yè)帶來變化。
市場層面,以往同聲傳譯多依賴人工,成本高且資源有限。隨著機器同傳技術(shù)發(fā)展,這類系統(tǒng)可能占據(jù)一定市場份額。這會促使傳統(tǒng)服務(wù)提供者改進,如結(jié)合人工智能提升服務(wù)質(zhì)量和效率,適應(yīng)市場變化。
硬件設(shè)備制造商也迎來機會。OlaFriend耳機計劃8月底接入該系統(tǒng),成為首個支持其語音同傳功能的硬件。未來或有更多智能硬件與之結(jié)合,提供更方便的跨語言交流工具。
目前SeedLiveInterpret2.0僅支持中英互譯,但端到端同傳框架可擴展,未來有望支持更多語言,方便不同語言交流。
除現(xiàn)有場景,這個系統(tǒng)在其他領(lǐng)域也有潛力。
比如智能客服,跨國公司可用其提供多語言服務(wù),提升體驗;影視作品跨國傳播時用其實時配音,方便觀眾用母語觀看,促進文化交流。
所謂“技術(shù)的真正力量不在于它本身有多強大,而在于它能連接多少可能性”(凱文?凱利),該模型未來拓展正連接更多跨語言交流可能。
懸疑丨身臨其境的錯覺,相信你會愛上她《最后一個女?dāng)繆y師》
人氣巨獻《最后一個女?dāng)繆y師》,錯過它是你的遺憾!
她曾是著名女演員,如日中天時卻突然自殺,原因撲朔迷離,究竟是...