柯娟妍
GPT-4o式的多模態(tài)大模型(LMMs)展現(xiàn)出在文本、視覺(jué)和語(yǔ)音模態(tài)上的全能能力,其在線語(yǔ)音服務(wù)還能在語(yǔ)音交互過(guò)程中同步提供中間文本結(jié)果(即用戶輸入和模型響應(yīng)的轉(zhuǎn)錄內(nèi)容),為用戶提供“邊看邊聽(tīng)”的靈活交互體驗(yàn)。因此,如何構(gòu)建支持文本、視覺(jué)和語(yǔ)音三種模態(tài)的多模態(tài)大模型成為近期研究熱點(diǎn)。現(xiàn)有的多模態(tài)大模型通常利用多個(gè)編碼器提取各個(gè)模態(tài)的表示,然后將各模態(tài)表示沿序列維度拼接并輸入至大語(yǔ)言模型基座中以生成回復(fù)。這些基于拼接的方法簡(jiǎn)化了模態(tài)集成過(guò)程,但它們?cè)诤艽蟪潭壬弦蕾嚧笠?guī)模數(shù)據(jù),以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)模態(tài)對(duì)齊。此外,這種基于拼接的維度對(duì)齊方式缺乏足夠的靈活性,無(wú)法像GPT-4o那樣在語(yǔ)音交互過(guò)程中同時(shí)生成中間文本結(jié)果。
為應(yīng)對(duì)這一挑戰(zhàn),中國(guó)科學(xué)院計(jì)算技術(shù)研究所自然語(yǔ)言處理團(tuán)隊(duì)提出了文本-視覺(jué)-語(yǔ)音多模態(tài)大模型——Stream-Omni,其能同時(shí)支持各種模態(tài)組合下的交互。通過(guò)對(duì)各模態(tài)間的關(guān)系進(jìn)行更有針對(duì)性的建模,Stream-Omni實(shí)現(xiàn)了更加高效和靈活的文本-視覺(jué)-語(yǔ)音模態(tài)對(duì)齊。僅依賴包含2.3萬(wàn)小時(shí)語(yǔ)音的多模態(tài)數(shù)據(jù),Stream-Omni即可具備文本交互、語(yǔ)音交互、基于視覺(jué)的語(yǔ)音交互等各種模態(tài)上的交互能力。與此同時(shí),依賴于創(chuàng)新的語(yǔ)音建模方式,Stream-Omni能在語(yǔ)音交互過(guò)程中像GPT-4o一樣同步輸出中間文本轉(zhuǎn)錄結(jié)果,為用戶提供全方位的多模態(tài)交互體驗(yàn)。
論文題目:
Stream-Omni:SimultaneousMultimodalInteractionswithLargeLanguage-Vision-SpeechModel
論文鏈接:
https://arxiv.org/abs/2506.13642
開(kāi)源代碼:
https://github.com/ictnlp/Stream-Omni
模型下載:
https://huggingface.co/ICTNLP/stream-omni-8b
Stream-Omni的模態(tài)對(duì)齊
現(xiàn)有多模態(tài)大模型中的模態(tài)對(duì)齊(如左圖所示):在序列維度上將三種模態(tài)的表示進(jìn)行拼接,輸入至大語(yǔ)言模型基座
為了減輕對(duì)大規(guī)模三模態(tài)數(shù)據(jù)的依賴,Stream-Omni更有針對(duì)性地建模各模態(tài)之間的關(guān)系,即語(yǔ)音與文本應(yīng)在語(yǔ)義上高度一致,而視覺(jué)則在語(yǔ)義上對(duì)文本形成互補(bǔ)關(guān)系。因此,Stream-Omni對(duì)不同模態(tài)采用不同對(duì)齊方式(如右圖所示):
視覺(jué)-文本對(duì)齊:序列維度的視覺(jué)文本拼接
語(yǔ)音-文本對(duì)齊:層級(jí)維度的語(yǔ)音文本映射
實(shí)現(xiàn)上,Stream-Omni以大語(yǔ)言模型(LLM)為核心,并在其底部和頂部引入語(yǔ)音層,通過(guò)連接時(shí)序分類(ConnectionistTemporalClassification,CTC)建模語(yǔ)音到文本的映射,此建模方式的優(yōu)勢(shì)在于:
支持通過(guò)語(yǔ)音模態(tài)進(jìn)行外部交互,同時(shí)利用文本模態(tài)在內(nèi)部控制生成的內(nèi)容;
基于CTC的語(yǔ)音-文本映射為語(yǔ)音文本在表示和結(jié)構(gòu)的對(duì)齊上提供更加直接的監(jiān)督,因此Stream-Omni能夠在僅使用少量語(yǔ)音數(shù)據(jù)的情況下,將LLM主干的文本能力遷移至語(yǔ)音模態(tài)。
層級(jí)維度映射使得Stream-Omni在語(yǔ)音交互過(guò)程中還能同步輸出中間文本結(jié)果(即指令和回復(fù)的轉(zhuǎn)錄文本),為用戶提供更全面的多模態(tài)體驗(yàn)。
Stream-Omni
Stream-Omni以大語(yǔ)言模型作為主干,逐步將視覺(jué)和語(yǔ)音與文本對(duì)齊,高效地構(gòu)建了一個(gè)支持文本、視覺(jué)和語(yǔ)音的多模態(tài)大模型。在視覺(jué)-文本對(duì)齊方面,Stream-Omni采用視覺(jué)編碼器和投影模塊提取視覺(jué)表示,并將其與文本表示進(jìn)行拼接。在語(yǔ)音-文本對(duì)齊方面,Stream-Omni在LLM主干的底部和頂部分別引入若干語(yǔ)音層,用于將語(yǔ)音映射到文本以及基于文本生成語(yǔ)音。
視覺(jué)模態(tài)
基于視覺(jué)模態(tài)與文本模態(tài)之間具有語(yǔ)義互補(bǔ)性,Stream-Omni采用LLaVA架構(gòu)中的序列維度拼接的方式進(jìn)行視覺(jué)-文本對(duì)齊。
語(yǔ)音模態(tài)
(1)語(yǔ)音離散化:Stream-Omni采用CosyVoiceTokenizer對(duì)語(yǔ)音輸入進(jìn)行離散化,編碼為若干離散的語(yǔ)音單元(…)。
(2)語(yǔ)音到文本映射:為了充分利用LLM的能力,Stream-Omni在LLM的底部引入語(yǔ)音層,用于學(xué)習(xí)語(yǔ)音與文本之間的映射關(guān)系,從而將LLM中的文本能力遷移到語(yǔ)音模態(tài)中。Stream-Omni利用在ASR任務(wù)上的CTC損失直接監(jiān)督底部語(yǔ)音層語(yǔ)音表示,將其與文本模態(tài)對(duì)齊。
(3)文本生成:LLM基于輸入的視覺(jué)表示和語(yǔ)音表示,生成文本回復(fù)。
(4)文本到語(yǔ)音生成:Stream-Omni通過(guò)頂部語(yǔ)音層來(lái)完成文本到語(yǔ)音生成。為了在生成文本的同時(shí)生成語(yǔ)音單元,Stream-Omni在頂部語(yǔ)音層中引入了alignment-basedfusion模塊。Alignment-basedfusion沿用了StreamSpeech等實(shí)時(shí)生成研究中的同步生成策略,利用CTC對(duì)齊來(lái)指導(dǎo)同步生成過(guò)程。
任意模態(tài)組合下的多模態(tài)交互
Stream-Omni能夠通過(guò)靈活組合視覺(jué)編碼器、底部語(yǔ)音層、LLM、頂部語(yǔ)音層來(lái)實(shí)現(xiàn)任意模態(tài)組合下的交互。同時(shí),由于層級(jí)維度語(yǔ)音文本映射,Stream-Omni能夠在語(yǔ)音到語(yǔ)音生成過(guò)程中提供中間的文本結(jié)果。
實(shí)驗(yàn)結(jié)果
視覺(jué)理解能力
Stream-Omni和相同規(guī)模和數(shù)據(jù)量級(jí)的視覺(jué)大模型取得相當(dāng)?shù)谋憩F(xiàn)。
語(yǔ)音交互能力
在事實(shí)性的語(yǔ)音交互上,Stream-Omni相比于現(xiàn)有方法具有優(yōu)勢(shì),源于層級(jí)維度的語(yǔ)音文本映射將LLM的文本能力遷移到語(yǔ)音模態(tài)上。
基于視覺(jué)的語(yǔ)音交互能力
在本實(shí)例中,在指令分別通過(guò)文本和語(yǔ)音輸入的情況下,VITA-1.5給出了兩個(gè)相互矛盾的回答:“不允許前往二樓”和“直接通往二樓”。這一在面對(duì)不同模態(tài)指令時(shí)產(chǎn)生的矛盾回應(yīng),源于沿序列維度拼接視覺(jué)、語(yǔ)音和文本表示來(lái)實(shí)現(xiàn)多模態(tài)對(duì)齊的方法,并未對(duì)語(yǔ)音與文本模態(tài)之間的語(yǔ)義進(jìn)行嚴(yán)格對(duì)齊建模。相比之下,Stream-Omni引入語(yǔ)音到文本的映射機(jī)制,實(shí)現(xiàn)了語(yǔ)音與文本表示之間更精確的語(yǔ)義對(duì)齊。因此,Stream-Omni在不同模態(tài)下表現(xiàn)更加一致,無(wú)論指令是通過(guò)文本還是語(yǔ)音輸入,都能生成相似的響應(yīng)。另外,Stream-Omni還能生成高質(zhì)量的語(yǔ)音回復(fù),更多實(shí)例請(qǐng)?jiān)趆ttps://github.com/ictnlp/Stream-Omni體驗(yàn)。
總結(jié)
Stream-Omni是一個(gè)GPT-4o式的文本-視覺(jué)-語(yǔ)音多模態(tài)大模型,能夠支持多種模態(tài)組合下的多模態(tài)交互。
Stream-Omni能夠在語(yǔ)音交互過(guò)程中輸出中間文本結(jié)果,為用戶提供更全面的多模態(tài)交互體驗(yàn)。
Stream-Omni關(guān)注如何構(gòu)建模態(tài)對(duì)齊,語(yǔ)音表現(xiàn)力等方面的增強(qiáng)不是本研究的重點(diǎn),因此其在擬人化、音色多樣性等方面存在局限性。
發(fā)達(dá)經(jīng)濟(jì)體資產(chǎn)泡沫的新集成對(duì)世界經(jīng)濟(jì)增長(zhǎng)是嚴(yán)重威脅
在當(dāng)今世界,金融市場(chǎng)的波動(dòng)性日益加劇,泡沫效應(yīng)成為了一個(gè)不可忽視的現(xiàn)象。泡沫效應(yīng)通常指的是資產(chǎn)價(jià)格遠(yuǎn)超過(guò)其內(nèi)在價(jià)值,導(dǎo)致市場(chǎng)出現(xiàn)過(guò)度繁榮和隨后的崩盤。這種效應(yīng)不僅影響個(gè)體的投資決策,更可能對(duì)整個(gè)經(jīng)濟(jì)體系帶來(lái)嚴(yán)重沖擊_。結(jié)合當(dāng)前的時(shí)事熱點(diǎn),本文將從不同角度探討泡沫效應(yīng)的可能影響。首先,我們需要關(guān)注的是科技好了吧!
卷土重來(lái)?美國(guó)房?jī)r(jià)持續(xù)飆漲,投資者借道QDII“炒房”,又在醞釀...
降息政策對(duì)于實(shí)體經(jīng)濟(jì)而言是一把雙刃劍_。一方面,它可以降低企業(yè)的融資成本,提升其盈利能力;另一方面,過(guò)度的降息也可能引發(fā)通貨膨脹和資產(chǎn)泡沫等問(wèn)題-|。因此,央行需要在降息與穩(wěn)定物價(jià)之間找到平衡點(diǎn),確保貨幣政策的穩(wěn)健有效。普通民眾的策略:理性應(yīng)對(duì)與自我提升面對(duì)美聯(lián)儲(chǔ)降息帶來(lái)的經(jīng)濟(jì)變化,普通民眾應(yīng)該如何應(yīng)對(duì)?我說(shuō)完了_。
美國(guó)連續(xù)降息,中國(guó)貨幣寬松放水,2025年各類資產(chǎn)將會(huì)如何?
然而,市場(chǎng)的狂熱往往孕育著風(fēng)險(xiǎn)——_。隨著債券價(jià)格的持續(xù)上漲,其背后的邏輯逐漸變得脆弱|。一方面,居民和金融機(jī)構(gòu)的爭(zhēng)相購(gòu)買推高了債券價(jià)格,形成了價(jià)格泡沫;另一方面,這種上漲并未得到實(shí)體經(jīng)濟(jì)基本面的有力支撐,一旦市場(chǎng)情緒發(fā)生逆轉(zhuǎn),泡沫破裂的風(fēng)險(xiǎn)將急劇增加。更為關(guān)鍵的是,中小銀行在這場(chǎng)“債?!笔⒀缰邪缪萘酥匾袔椭?qǐng)點(diǎn)贊——。
來(lái)源:紅網(wǎng)
作者:摩代卉
編輯:業(yè)熙
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。