崔雨石
本文第一作者是徐婷,是香港中文大學(xué)博士生,主要研究興趣是大模型的后訓(xùn)練;通訊作者分別是黃志超和程善伯,來自字節(jié)跳動(dòng)Seed團(tuán)隊(duì)。
你是否經(jīng)歷過這樣的場景:觀看一場激動(dòng)人心的全球發(fā)布會,AI字幕卻總是慢半拍,等你看到翻譯,臺上的梗已經(jīng)冷掉了。
或者,在跨國視頻會議上,機(jī)器翻譯的質(zhì)量時(shí)好時(shí)壞,前言不搭后語,讓人啼笑皆非。
這就是同聲傳譯(SimultaneousMachineTranslation,SiMT)領(lǐng)域一直以來的核心技術(shù)挑戰(zhàn):“質(zhì)量-延遲”權(quán)衡問題(Quality-LatencyTrade-off)。
現(xiàn)在,這些問題迎來了新的解決方案。來自香港中文大學(xué)、字節(jié)跳動(dòng)Seed和斯坦福大學(xué)的研究團(tuán)隊(duì)聯(lián)手提出了一種面向同聲傳譯的序貫策略優(yōu)化框架(SequentialPolicyOptimizationforSimultaneousMachineTranslation,SeqPO-SiMT)。
該方法將同傳任務(wù)巧妙地建模為序貫決策過程,通過優(yōu)化完整的決策序列,顯著提升了翻譯質(zhì)量,同時(shí)有效控制了延遲,其性能直逼、甚至在某些方面超越了同等大小的離線翻譯模型。
論文標(biāo)題:SeqPO-SiMT:SequentialPolicyOptimizationforSimultaneousMachineTranslation
研究背景
同聲傳譯的核心在于機(jī)器需要?jiǎng)討B(tài)地決定“繼續(xù)聽”(READ)還是“開始說”(WRITE)。這個(gè)決策直接影響最終的翻譯效果。例如,當(dāng)模型接收到英文單詞“bark”時(shí),它面臨一個(gè)困境:如果立即翻譯,可能會譯為“狗叫”,但若后文出現(xiàn)“ofthetree”,則正確翻譯應(yīng)為“樹皮”。
傳統(tǒng)的同傳方法,它每一步?jīng)Q策(是繼續(xù)聽,還是開始翻譯)都是孤立的。它可能會因?yàn)檠矍暗摹靶±保ū热绶g出一個(gè)詞)而犧牲掉全局的“大利”(整個(gè)句子的流暢度和準(zhǔn)確性)。
核心方法
針對這一難點(diǎn),該論文提出了SeqPO-SiMT框架。其核心思想是將同聲傳譯任務(wù)建模為一個(gè)序貫決策問題,綜合評估整個(gè)翻譯流程的翻譯質(zhì)量和延遲,并對整個(gè)決策序貫進(jìn)行端到端的優(yōu)化。
該方法的主要特點(diǎn)是:它不再孤立地評估每一步?jīng)Q策的好壞,而是將一整句話的翻譯過程(即一個(gè)完整的決策序貫)視為一個(gè)整體,更符合人類對同傳的評估過程。
其中,λ是一個(gè)超參數(shù),用于權(quán)衡質(zhì)量與延遲的重要性。
實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證方法的有效性,研究者們在多個(gè)公開的英漢互譯測試集上進(jìn)行了實(shí)驗(yàn),并與多種現(xiàn)有的同傳模型進(jìn)行了對比。實(shí)驗(yàn)結(jié)果顯示:在低延遲水平下,SeqPO-SiMT框架生成的譯文質(zhì)量相較于基線模型有明顯提升。
本文將SeqPO-SiMT的實(shí)時(shí)同傳結(jié)果與多個(gè)高性能模型的離線翻譯結(jié)果進(jìn)行對比。結(jié)果顯示,SeqPO-SiMT的翻譯質(zhì)量不僅優(yōu)于監(jiān)督微調(diào)(SFT)的離線模型及LLaMA-3-8B,其表現(xiàn)甚至能媲美乃至超越Qwen-2.5-7B的離線翻譯水平。這表明該方法在70億參數(shù)(7B)規(guī)模上實(shí)現(xiàn)了業(yè)界頂尖(SoTA)的性能。
總結(jié)與討論
總的來說,SeqPO-SiMT這項(xiàng)工作的主要貢獻(xiàn)在于,為解決同聲傳譯中的質(zhì)量-延遲權(quán)衡問題提供了一個(gè)新的視角。它強(qiáng)調(diào)了對決策“序貫”進(jìn)行整體優(yōu)化的重要性。該研究提出的方法,對于需要進(jìn)行實(shí)時(shí)、連續(xù)決策的自然語言處理任務(wù)具有一定的參考意義,并為未來開發(fā)更高效、更智能的同聲傳譯系統(tǒng)提供了有價(jià)值的探索。
“校園日?!弊儾吝呂鑸?百萬流量背后,誰在操控你的欲望?
挫折是成長的階梯:2023年的賭球風(fēng)波讓趙心童跌入谷底,但禁賽期間他反而開發(fā)出"心理博弈"新技能。半決賽對陣奧沙利文時(shí),他多次用假動(dòng)作誘使對手失誤,這種"讀心術(shù)"正是那段特殊經(jīng)歷的饋贈--。技術(shù)革新引領(lǐng)潮流:趙心童平均18秒的出桿速度,打破了傳統(tǒng)斯諾克的節(jié)奏范式。他在決賽中12次"一桿制勝",其中3次零封對手,這說完了。
短視頻還能火多久?
說到這里,咱們不禁想起那些年被媽媽表情“讀心術(shù)”坑過的經(jīng)歷,真是分分鐘讓人腦補(bǔ)各種劇情。更有意思的是,網(wǎng)友們開始曬自己的家庭故事-——。有的說自己工作忙得連爸媽長啥樣都記不清了,遺憾得很;有的說家里難免有點(diǎn)小摩擦,但通過溝通還是能把“雷”收回來;還有不少人感嘆,家庭就是他們堅(jiān)持下去的最大動(dòng)力等會說。
智能眼鏡“讀心術(shù)”:科幻照進(jìn)現(xiàn)實(shí)?
這款快手圖文自動(dòng)發(fā)布軟件,讓你的創(chuàng)作發(fā)布輕松又高效各位快手創(chuàng)作者們,你們好哇!你知道嗎,咱做創(chuàng)作者有時(shí)候真的是手忙腳亂,像深夜趕稿還得為排版抓狂,粉絲漲粉也老是卡在瓶頸期,可太讓人頭疼啦!不過呢,有一款會“讀心術(shù)”的智能助手,正在偷偷改變10萬創(chuàng)作者的生存法則呢!先來說說它的第一幕,..
來源:紅網(wǎng)
作者:果元愷
編輯:前元基
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。