新智元報(bào)道
Aeneas桃子
【新智元導(dǎo)讀】WAIC2025大會(huì)上,一套國(guó)產(chǎn)AI同傳系統(tǒng)技驚四座。從AI教父Hinton金句翻譯,到多語種實(shí)時(shí)翻譯,它實(shí)現(xiàn)了2秒極致響應(yīng),超8萬專業(yè)詞匯拿捏到位,如母語般絲滑交流。作為WAIC唯一翻譯合作伙伴,這家中國(guó)公司成為了全場(chǎng)矚目的焦點(diǎn)。
剛剛過去的WAIC大會(huì)現(xiàn)場(chǎng),一套同傳系統(tǒng)徹底驚艷了全場(chǎng)。
AI教父Hinton的重磅演講《數(shù)字智能是否會(huì)取代生物智能》金句頻出,時(shí)不時(shí)引起全場(chǎng)贊嘆。
當(dāng)他用標(biāo)準(zhǔn)的倫敦腔講述自己的觀點(diǎn)時(shí),幾乎就在張口的同一瞬間,標(biāo)準(zhǔn)的中文翻譯就同步出現(xiàn)了右邊的大屏上。
而在場(chǎng)的每一位觀眾,都能立刻秒懂對(duì)應(yīng)的英文內(nèi)容,因?yàn)橛疫叺淖帜痪珳?zhǔn)、流暢,完全符合中文讀者的理解習(xí)慣。
無論是多專業(yè)的術(shù)語,多深?yuàn)W的表達(dá),都能立刻被這套系統(tǒng)完美地捕捉,轉(zhuǎn)化出的翻譯極度符合語境。
演講結(jié)束后,現(xiàn)場(chǎng)爆發(fā)出熱烈的掌聲,可以說,一方面是出于現(xiàn)場(chǎng)觀眾對(duì)于AI教父精彩演講的反響,另一方面,也是對(duì)于旁邊這位由AI「國(guó)家隊(duì)」科大訊飛打造的「AI同傳」的肯定。
要知道,2018年訊飛還在和國(guó)內(nèi)其他大廠同臺(tái)競(jìng)技,共同為WAIC提供AI同傳服務(wù);而到了今年,訊飛已經(jīng)成了WAIC2025的唯一翻譯合作伙伴。
走到這個(gè)位置,懂行的人都知道一款產(chǎn)品得做到多么優(yōu)秀才行。畢竟,WAIC的現(xiàn)場(chǎng)可隨時(shí)隨地都是真刀真槍的考驗(yàn)——30多個(gè)國(guó)家、1200余位嘉賓的實(shí)時(shí)交流場(chǎng)景,能完美做到無障礙跨語言交流,技術(shù)門檻可謂相當(dāng)高。
七年里,究竟發(fā)生了什么,讓訊飛的產(chǎn)品成為了國(guó)際大會(huì)的AI同傳首選?
WAIC2025唯一翻譯合作伙伴
訊飛如何做到?
這,就要從以往同傳背后的重重難點(diǎn)說起。
很多人認(rèn)為,如今AI大模型的突飛猛進(jìn),實(shí)時(shí)語音同傳必然變得輕而易舉。
然而出乎大家意料的是,多年以來AI同傳其實(shí)都難以完全落地。
首先的一大難點(diǎn),就是實(shí)時(shí)性與高延遲之間的矛盾。
因?yàn)橥瑐鲝?qiáng)調(diào)的是同步,延遲必須極短,翻譯結(jié)果必須準(zhǔn)確,還要幾乎立即同時(shí)呈現(xiàn)。在這種極端情況下,很難避免翻譯質(zhì)量的下降。
第二大難點(diǎn),就是上下文語境的精準(zhǔn)理解。
人類語言中充滿了歧義、隱喻、指代,這些都需要結(jié)合上下文才能準(zhǔn)確理解。想要實(shí)時(shí)準(zhǔn)確翻譯大量專業(yè)術(shù)語,就需要提前做好知識(shí)儲(chǔ)備和領(lǐng)域知識(shí)建模。
一些讓人啼笑皆非的AI翻譯翻車現(xiàn)場(chǎng)(左右滑動(dòng)查看)
更何況,大會(huì)演講者可能使用不同的方言和口音,甚至?xí)霈F(xiàn)口誤;會(huì)議的演講現(xiàn)場(chǎng)也環(huán)境復(fù)雜,會(huì)存在噪音、回聲、交疊說話等問題。
比如,這位日本科學(xué)院院士ToshioFukuda的日式英語,對(duì)AI同傳就是不小的挑戰(zhàn)
此外,不同語言的結(jié)構(gòu)差異,也會(huì)讓同傳的難度大大增加。比如中英文的語序截然不同,翻譯系統(tǒng)很可能需要等待一句話結(jié)束,才開始翻譯,這就會(huì)帶來嚴(yán)重的延遲。
同傳中還有一大難點(diǎn),就是語音合成。在傳統(tǒng)同傳模式下,最終的翻譯由譯員的聲音播報(bào),這使得聽感比視覺呈現(xiàn)更為流暢,不會(huì)對(duì)視覺造成干擾。
而在AI同傳要達(dá)到同樣的效果,就需要聲音快速無縫銜接,仿佛有一個(gè)真人在播報(bào)出來一樣。這就需要在技術(shù)上達(dá)到極細(xì)致的要求。
而且,同傳需要同時(shí)實(shí)現(xiàn)語音識(shí)別、語言理解、機(jī)器翻譯、語音合成等多個(gè)技術(shù)模塊的高度融合,技術(shù)鏈條復(fù)雜。
還有就是,高質(zhì)量平行語料的匱乏,也制約了模型的訓(xùn)練效果。
真正的同傳大模型,需要做到什么?
好在,現(xiàn)在不少AI同傳產(chǎn)品,開始嘗試解決這些問題,一些還取得了不錯(cuò)的效果。
在國(guó)外,諸如Zoom自帶的AICompanion和ZoomInterpretation這類實(shí)時(shí)翻譯與同傳工具,能夠很好地服務(wù)于專業(yè)會(huì)議及網(wǎng)絡(luò)研討會(huì)。
不過,盡管它支持多種主流語言,集成度出色,非常適合商務(wù)場(chǎng)合使用,但翻譯質(zhì)量尚有提升空間,且價(jià)格偏高,部分高級(jí)功能還需通過付費(fèi)訂閱來解鎖。
MicrosoftTeams,也可以通過集成Azure的語音識(shí)別和翻譯服務(wù),從而實(shí)現(xiàn)多語種的字幕和翻譯,能支持70+種語言。
它的翻譯倒是很流暢,然而缺點(diǎn)也很明顯:設(shè)置復(fù)雜,需要一定的技術(shù)集成能力,這就大大提升了門檻,不適合亟需翻譯場(chǎng)景的小白用戶。
谷歌家當(dāng)然也少不了類似產(chǎn)品。
比如GoogleMeet內(nèi)置字幕功能+自定義集成GoogleTranslate,就能實(shí)現(xiàn)AI同傳。
這個(gè)產(chǎn)品的特點(diǎn)是延遲低,非常適合教育和遠(yuǎn)程協(xié)作。然而它的翻譯精度嚴(yán)重依賴語境,在專業(yè)術(shù)語的翻譯上時(shí)常出現(xiàn)翻車的情況。
視頻中可以看出,GoogleMeet在英語和西語的互譯上延遲極低,效果不錯(cuò)
在國(guó)內(nèi),許多AI同傳產(chǎn)品完全不輸外國(guó)AI。
其中,作為WAIC2025的唯一合作伙伴,科大訊飛在AI同傳領(lǐng)域尤為引人注目。
縱觀市場(chǎng)上的主流AI同傳產(chǎn)品,競(jìng)爭(zhēng)的焦點(diǎn)普遍集中在延遲、專業(yè)術(shù)語準(zhǔn)確度、多語言支持以及語音效果等關(guān)鍵指標(biāo)上。
在這些方面,訊飛星火語音同傳大模型均表現(xiàn)出色。
以往很多傳統(tǒng)的同傳大模型,基本上采取傳統(tǒng)的「語音識(shí)別+文本翻譯+語音合成」串聯(lián)模式,上文所提到的種種弊病,都難以打破。
然而所有這些「魔咒」,卻都被科大訊飛的星火語音同傳大模型克服了。
該模型基于機(jī)器學(xué)習(xí)(ML)和大規(guī)模語言模型技術(shù),實(shí)現(xiàn)端到端語音實(shí)時(shí)翻譯。
基于星火X1底座,其在四大維度——翻譯效果、響應(yīng)時(shí)間、專業(yè)覆蓋、語音品質(zhì)上,呈現(xiàn)出系統(tǒng)性領(lǐng)先優(yōu)勢(shì),而非單點(diǎn)技術(shù)突破。
它模擬了人類譯員思維鏈路,通過智能意群切分、上下文精準(zhǔn)選詞和碎片化信息重組,實(shí)現(xiàn)了無縫的跨語言實(shí)時(shí)交流。
在實(shí)時(shí)性、準(zhǔn)確性和專業(yè)性上,它在行業(yè)內(nèi)都做到了最優(yōu),如母語般絲滑交流。
在保證翻譯質(zhì)量的同時(shí),模型實(shí)現(xiàn)了2秒極致響應(yīng),達(dá)到人類頂尖同傳譯員的水平。
全新升級(jí)的語音同傳大模型,針對(duì)醫(yī)療、制造業(yè)、金融等高壁壘專業(yè)領(lǐng)域深度優(yōu)化,覆蓋了超8萬個(gè)專業(yè)詞匯。
實(shí)測(cè)顯示,專業(yè)內(nèi)容翻譯得分超90分,業(yè)內(nèi)率先達(dá)到「可用」標(biāo)準(zhǔn)。
此外,其智能雙語識(shí)別功能,在中英文混合發(fā)言的情況下,也能自動(dòng)切換翻譯方向。
要知道,真正的同傳大模型,絕不能僅僅是翻譯工具,而是一種交流方式的徹底革命。
在這次Hinton演講的同傳任務(wù)中,星火語音同傳大模型的表現(xiàn),實(shí)在可以稱得上是國(guó)民級(jí)AI同傳的水平,在全世界觀眾面前都十分拿得出手。
比如,當(dāng)Hinton講到關(guān)于同一個(gè)詞語意義的兩種不同理論時(shí),大模型在屏幕右側(cè)迅速給出了正確通順的翻譯——
「為了捕捉意義,我們需要一種類似關(guān)系圖的東西,心理學(xué)家曾相信一種截然不同的理論,即一個(gè)詞的意義只是一大堆語義和句法特征」
這種學(xué)術(shù)性和專業(yè)性非常高的知識(shí),大模型能夠即時(shí)給出足夠精準(zhǔn)的翻譯,能力可見一斑。
可以說,當(dāng)競(jìng)品還在苦苦追趕「能用」的水平時(shí),星火已經(jīng)狂飆到「好用」的境界,堪稱AI同傳界的「卷王」。
國(guó)內(nèi)首個(gè)同傳大模型
訊飛何以快人一步?
要說現(xiàn)在國(guó)內(nèi)做語音同傳最牛的,訊飛可真是獨(dú)一檔的存在,其他家還沒有誰能跟上這個(gè)節(jié)奏。
而這個(gè)成就,可不是一夜之間取得的??梢哉f,訊飛的硬核實(shí)力,靠的是20多年來在語音技術(shù)領(lǐng)域的「死磕」。
早在2010年,這家公司就Allin深度學(xué)習(xí)搭上AI快車,成為了全球最早一批搞機(jī)器學(xué)習(xí)的玩家。
一年后,其自研的基于深度神經(jīng)網(wǎng)絡(luò)「中文語音識(shí)別系統(tǒng)」正式上線,直接把行業(yè)甩在了身后。
這些都為后來的技術(shù)演進(jìn)埋下了關(guān)鍵伏筆。
此后數(shù)年,訊飛在技術(shù)和應(yīng)用上雙線狂飆,拿獎(jiǎng)拿到手軟——
2018年,訊飛機(jī)器翻譯口譯能力首次拿下了CATTI翻譯資格考試;2019年,其機(jī)器閱讀理解能力,在全球首次超越人類平均水平。
在語音識(shí)別上,2016-2023年,訊飛連獲國(guó)際多通道語音分離和識(shí)別大賽CHiME五連冠;在多語種翻譯上,又在2021-2023年連續(xù)三屆拿下IWSLT冠軍。
如今星火大模型的快速迭代,直接把科大訊飛的技術(shù)底盤又往上拉了一層。
WAIC上,星火X1基于全國(guó)產(chǎn)算力平臺(tái)「飛星一號(hào)」,采用端到端架構(gòu),直接把傳統(tǒng)「語音識(shí)別-翻譯-語音合成」三步流程簡(jiǎn)化成一步,極大提升效率、降低延遲。
這也就是為什么,我們能看到Hinton說話和字幕的出現(xiàn)做到了神同步。
而且,基于X1的多語言能力,星火同傳大模型不僅能「聽懂」復(fù)雜語境,還能精準(zhǔn)捕捉語義、語調(diào)和專業(yè)術(shù)語,全場(chǎng)絲滑無壓力。
而這背后,都是訊飛多年來廣泛積累的數(shù)據(jù)在做支撐——他們已經(jīng)為全球超過40萬場(chǎng)國(guó)際會(huì)議做過同傳,數(shù)據(jù)維度廣,最不缺的就是覆蓋多語種、多場(chǎng)景的真實(shí)語料,堪稱行業(yè)翹楚。
更不要說,訊飛的開放平臺(tái)上,還擁有廣大的52萬海外開發(fā)者。這就讓數(shù)據(jù)池源源不斷,生態(tài)持續(xù)壯大。
總之,訊飛實(shí)打?qū)嵉亟?jīng)歷了一場(chǎng)場(chǎng)真金白銀的考驗(yàn)——從北京冬奧會(huì)、進(jìn)博會(huì),再到聯(lián)合國(guó)會(huì)議,無論是多么高規(guī)格的國(guó)際場(chǎng)合,它的AI同傳技術(shù)都能carry全場(chǎng),在每一次實(shí)戰(zhàn)中都獲得了滿場(chǎng)稱贊。
可以說,訊飛能在全球的AI同傳領(lǐng)域穩(wěn)站C位,靠的就是一步步打出來的技術(shù)和經(jīng)驗(yàn)。
而現(xiàn)在國(guó)內(nèi)首個(gè)同傳大模型的發(fā)布,更是代表著全新的里程碑。不僅訊飛交出了漂亮的成績(jī)單,在全球賽道上沖到了最前排,也讓人類的「語言無障礙」變得越來越近了。
軟硬一體,用「服務(wù)閉環(huán)」征服WAIC
WAIC上,訊飛不僅以技術(shù)實(shí)力霸屏?xí)?chǎng),更通過「軟硬一體」的戰(zhàn)略,完美適配了國(guó)際會(huì)議的復(fù)雜場(chǎng)景。
這一現(xiàn)象背后,折射出AI同傳技術(shù)的新趨勢(shì)以及市場(chǎng)競(jìng)爭(zhēng)的新格局。
當(dāng)前來看,AI同傳市場(chǎng)早已從單一技術(shù)輸出,轉(zhuǎn)向了生態(tài)的競(jìng)爭(zhēng)。一些單一技術(shù)提供商或純軟件方案,往往在復(fù)雜場(chǎng)景下適配性不足。
訊飛軟硬一體戰(zhàn)略,并非是簡(jiǎn)單的產(chǎn)品堆疊,而是以星火「全家桶」為核心,通過硬件協(xié)作持續(xù)放大的技術(shù)能力。
舉個(gè)栗子,首款搭載離線LLM翻譯設(shè)備「訊飛雙屏翻譯機(jī)2.0」,能精準(zhǔn)分離多方發(fā)言,自動(dòng)切換翻譯方向,延遲率非常低。
WAIC展覽館中,一位來自泰國(guó)Omniscien公司的CTODionWiggins對(duì)訊飛的多語種透明屏技術(shù)贊不絕口。
不僅如此,AI同傳的競(jìng)爭(zhēng)已從算法精度轉(zhuǎn)向了場(chǎng)景適配能力,而硬件是實(shí)現(xiàn)這一躍遷的關(guān)鍵。
相較于純軟件方案,訊飛翻譯硬件通過場(chǎng)景化設(shè)計(jì),能夠直接觸達(dá)用戶需求。
WAIC現(xiàn)場(chǎng)3款新系列的訊飛AI錄音筆的首秀,分別針對(duì)學(xué)生、職場(chǎng)人、商務(wù)人士提供了定制化需求,并覆蓋了課堂、辦公等多種場(chǎng)景。
還有訊飛同傳和同傳耳機(jī)的協(xié)作,進(jìn)一步放大了星火大模型的能力。
WAIC參會(huì)者通過耳機(jī)收聽AI合成的語音,再結(jié)合屏幕的實(shí)時(shí)字幕,即能體驗(yàn)「聽譯同步」的沉浸式溝通。
更重要的是,訊飛的軟硬件協(xié)作邏輯,不僅在于單一設(shè)備的突破,更在于多設(shè)備的協(xié)同,形成了覆蓋WAIC全場(chǎng)景的「服務(wù)閉環(huán)」。
在大會(huì)的翻譯服務(wù)點(diǎn),訊飛還提供了現(xiàn)場(chǎng)租借的翻譯機(jī),讓參會(huì)者即拿即用,與全球同行無障礙交流。
這屆WAIC大會(huì),涵蓋了開幕式、3場(chǎng)主論壇,以及19場(chǎng)分論壇,涉及到多語言、多場(chǎng)景的并發(fā)需求。
訊飛同傳通過大屏幕實(shí)時(shí)呈現(xiàn)多語種字幕,為開幕式和分論壇的順利溝通提供了保障。
這種從前端硬件到后端服務(wù)的閉環(huán)能力,恰恰體現(xiàn)了訊飛對(duì)國(guó)際會(huì)議場(chǎng)景的深刻洞察,也彰顯了其硬件賦能在提升服務(wù)效率上的核心價(jià)值。
當(dāng)然了,能成為國(guó)際會(huì)議翻譯唯一合作伙伴,不僅要技術(shù)和服務(wù)過硬,還需強(qiáng)大的品牌背書。
如上所述,從2018年首屆WAIC開始,訊飛就承包了翻譯重任,為各路AI大牛們「搭橋」。
如今,訊飛憑借其「全棧式」AI同傳解決方案,構(gòu)建了「軟件+硬件+服務(wù)」三位一體的核心競(jìng)爭(zhēng)力,以技術(shù)突破與生態(tài)協(xié)同重塑行業(yè)標(biāo)準(zhǔn)。
放眼未來,AI同傳在教育、旅游、醫(yī)療等領(lǐng)域進(jìn)一步滲透,硬件賦能將成為技術(shù)落地的關(guān)鍵驅(qū)動(dòng)力。
訊飛將帶領(lǐng)行業(yè)打破語言壁壘,登上「巴別塔」之巔,讓全球溝通更加高效、自然。
雙頭鷹的起源與演變:歷史與神話交織的真相
傳說在中世紀(jì)十字軍東征與塞爾柱突厥的激戰(zhàn)中,塞爾柱的雙頭鷹被帶回了神圣羅馬帝國(guó),并演變?yōu)槠浠諛?biāo)_|。另一種說法則是,神圣羅馬帝國(guó)的雙頭鷹徽標(biāo)是在原有單頭鷹形象的基礎(chǔ)上進(jìn)行變形而來|——。然而,隨著1806年神圣羅馬帝國(guó)的衰亡,這一雙頭鷹形象并未消逝,反而被帝國(guó)境內(nèi)的眾多邦國(guó)和城市所繼承,如奧地利帝國(guó)(1804-1867)、德意 這個(gè)東西叫做鈴桿,來自于普魯士鷹的徽標(biāo)——。而傳說中的普魯士鷹,是長(zhǎng)這樣的。它源自神圣羅馬帝國(guó)鷹徽。而神圣羅馬帝國(guó)鷹徽又繼承于古羅馬帝國(guó)單頭鷹標(biāo)志。還有咱們熟悉的當(dāng)代俄羅斯和之前沙俄帝國(guó)的雙頭鷹,則是繼承于東羅馬帝國(guó)(拜占庭帝國(guó))的徽章——-。帝國(guó)時(shí)代的俄羅斯沙皇國(guó)徽章而且,要說歐洲各國(guó),幾乎全都是屬于“..美第奇、哈布斯堡、卡佩與羅斯切爾德家族:歐洲歷史的推動(dòng)者