本文第一作者是徐婷,是香港中文大學博士生,主要研究興趣是大模型的后訓練;通訊作者分別是黃志超和程善伯,來自字節(jié)跳動Seed團隊。
你是否經歷過這樣的場景:觀看一場激動人心的全球發(fā)布會,AI字幕卻總是慢半拍,等你看到翻譯,臺上的梗已經冷掉了。
或者,在跨國視頻會議上,機器翻譯的質量時好時壞,前言不搭后語,讓人啼笑皆非。
這就是同聲傳譯(SimultaneousMachineTranslation,SiMT)領域一直以來的核心技術挑戰(zhàn):“質量-延遲”權衡問題(Quality-LatencyTrade-off)。
現(xiàn)在,這些問題迎來了新的解決方案。來自香港中文大學、字節(jié)跳動Seed和斯坦福大學的研究團隊聯(lián)手提出了一種面向同聲傳譯的序貫策略優(yōu)化框架(SequentialPolicyOptimizationforSimultaneousMachineTranslation,SeqPO-SiMT)。
該方法將同傳任務巧妙地建模為序貫決策過程,通過優(yōu)化完整的決策序列,顯著提升了翻譯質量,同時有效控制了延遲,其性能直逼、甚至在某些方面超越了同等大小的離線翻譯模型。
論文標題:SeqPO-SiMT:SequentialPolicyOptimizationforSimultaneousMachineTranslation
研究背景
同聲傳譯的核心在于機器需要動態(tài)地決定“繼續(xù)聽”(READ)還是“開始說”(WRITE)。這個決策直接影響最終的翻譯效果。例如,當模型接收到英文單詞“bark”時,它面臨一個困境:如果立即翻譯,可能會譯為“狗叫”,但若后文出現(xiàn)“ofthetree”,則正確翻譯應為“樹皮”。
傳統(tǒng)的同傳方法,它每一步決策(是繼續(xù)聽,還是開始翻譯)都是孤立的。它可能會因為眼前的“小利”(比如翻譯出一個詞)而犧牲掉全局的“大利”(整個句子的流暢度和準確性)。
核心方法
針對這一難點,該論文提出了SeqPO-SiMT框架。其核心思想是將同聲傳譯任務建模為一個序貫決策問題,綜合評估整個翻譯流程的翻譯質量和延遲,并對整個決策序貫進行端到端的優(yōu)化。
該方法的主要特點是:它不再孤立地評估每一步決策的好壞,而是將一整句話的翻譯過程(即一個完整的決策序貫)視為一個整體,更符合人類對同傳的評估過程。
其中,λ是一個超參數(shù),用于權衡質量與延遲的重要性。
實驗結果與分析
為了驗證方法的有效性,研究者們在多個公開的英漢互譯測試集上進行了實驗,并與多種現(xiàn)有的同傳模型進行了對比。實驗結果顯示:在低延遲水平下,SeqPO-SiMT框架生成的譯文質量相較于基線模型有明顯提升。
本文將SeqPO-SiMT的實時同傳結果與多個高性能模型的離線翻譯結果進行對比。結果顯示,SeqPO-SiMT的翻譯質量不僅優(yōu)于監(jiān)督微調(SFT)的離線模型及LLaMA-3-8B,其表現(xiàn)甚至能媲美乃至超越Qwen-2.5-7B的離線翻譯水平。這表明該方法在70億參數(shù)(7B)規(guī)模上實現(xiàn)了業(yè)界頂尖(SoTA)的性能。
總結與討論
總的來說,SeqPO-SiMT這項工作的主要貢獻在于,為解決同聲傳譯中的質量-延遲權衡問題提供了一個新的視角。它強調了對決策“序貫”進行整體優(yōu)化的重要性。該研究提出的方法,對于需要進行實時、連續(xù)決策的自然語言處理任務具有一定的參考意義,并為未來開發(fā)更高效、更智能的同聲傳譯系統(tǒng)提供了有價值的探索。
比《梟妃鎖情》更蘇爽,艷壓《國色嬌妃》,9.6分的TA反超榜一
第二本:《梟妃鎖情》作者:耳東兔子簡介:一代武警穿越到將軍府大小姐身上,從商,打仗,醫(yī)術還了得_|。精彩內容:“伯父,您過獎了——-。婉月哪有您說的那么厲害,不過是些三腳貓功夫。再者,伯父你是婉月的長輩又是上官家的大恩人,如果不嫌棄的話,不如就和爹爹一般,稱婉月為月兒吧,這是婉月在家的閨名” 第一本:《梟妃鎖情》作者:耳東兔子(書荒推薦:耳東兔子的《梟妃鎖情》糖系雙向暗戀,好評度爆棚?。┚蕜∏椋翰贿^陳辰是什么人,她又怎么不知道大夫人話語透漏的信息,只是這種用自家娘親委屈換來的虛榮,她還不屑于此。更何況,自始至終她從未想過要嫁入宮廷。表面上陳辰還是點頭應下“娘親放心,孩兒知曉好了吧!艷壓《邪醫(yī)毒妃》,超越《梟妃鎖情》,它以9.9高分持續(xù)霸榜第一