郭家榮
GPT-4o式的多模態(tài)大模型(LMMs)展現出在文本、視覺和語音模態(tài)上的全能能力,其在線語音服務還能在語音交互過程中同步提供中間文本結果(即用戶輸入和模型響應的轉錄內容),為用戶提供“邊看邊聽”的靈活交互體驗。因此,如何構建支持文本、視覺和語音三種模態(tài)的多模態(tài)大模型成為近期研究熱點?,F有的多模態(tài)大模型通常利用多個編碼器提取各個模態(tài)的表示,然后將各模態(tài)表示沿序列維度拼接并輸入至大語言模型基座中以生成回復。這些基于拼接的方法簡化了模態(tài)集成過程,但它們在很大程度上依賴大規(guī)模數據,以數據驅動的方式學習模態(tài)對齊。此外,這種基于拼接的維度對齊方式缺乏足夠的靈活性,無法像GPT-4o那樣在語音交互過程中同時生成中間文本結果。
為應對這一挑戰(zhàn),中國科學院計算技術研究所自然語言處理團隊提出了文本-視覺-語音多模態(tài)大模型——Stream-Omni,其能同時支持各種模態(tài)組合下的交互。通過對各模態(tài)間的關系進行更有針對性的建模,Stream-Omni實現了更加高效和靈活的文本-視覺-語音模態(tài)對齊。僅依賴包含2.3萬小時語音的多模態(tài)數據,Stream-Omni即可具備文本交互、語音交互、基于視覺的語音交互等各種模態(tài)上的交互能力。與此同時,依賴于創(chuàng)新的語音建模方式,Stream-Omni能在語音交互過程中像GPT-4o一樣同步輸出中間文本轉錄結果,為用戶提供全方位的多模態(tài)交互體驗。
論文題目:
Stream-Omni:SimultaneousMultimodalInteractionswithLargeLanguage-Vision-SpeechModel
論文鏈接:
https://arxiv.org/abs/2506.13642
開源代碼:
https://github.com/ictnlp/Stream-Omni
模型下載:
https://huggingface.co/ICTNLP/stream-omni-8b
Stream-Omni的模態(tài)對齊
現有多模態(tài)大模型中的模態(tài)對齊(如左圖所示):在序列維度上將三種模態(tài)的表示進行拼接,輸入至大語言模型基座
為了減輕對大規(guī)模三模態(tài)數據的依賴,Stream-Omni更有針對性地建模各模態(tài)之間的關系,即語音與文本應在語義上高度一致,而視覺則在語義上對文本形成互補關系。因此,Stream-Omni對不同模態(tài)采用不同對齊方式(如右圖所示):
視覺-文本對齊:序列維度的視覺文本拼接
語音-文本對齊:層級維度的語音文本映射
實現上,Stream-Omni以大語言模型(LLM)為核心,并在其底部和頂部引入語音層,通過連接時序分類(ConnectionistTemporalClassification,CTC)建模語音到文本的映射,此建模方式的優(yōu)勢在于:
支持通過語音模態(tài)進行外部交互,同時利用文本模態(tài)在內部控制生成的內容;
基于CTC的語音-文本映射為語音文本在表示和結構的對齊上提供更加直接的監(jiān)督,因此Stream-Omni能夠在僅使用少量語音數據的情況下,將LLM主干的文本能力遷移至語音模態(tài)。
層級維度映射使得Stream-Omni在語音交互過程中還能同步輸出中間文本結果(即指令和回復的轉錄文本),為用戶提供更全面的多模態(tài)體驗。
Stream-Omni
Stream-Omni以大語言模型作為主干,逐步將視覺和語音與文本對齊,高效地構建了一個支持文本、視覺和語音的多模態(tài)大模型。在視覺-文本對齊方面,Stream-Omni采用視覺編碼器和投影模塊提取視覺表示,并將其與文本表示進行拼接。在語音-文本對齊方面,Stream-Omni在LLM主干的底部和頂部分別引入若干語音層,用于將語音映射到文本以及基于文本生成語音。
視覺模態(tài)
基于視覺模態(tài)與文本模態(tài)之間具有語義互補性,Stream-Omni采用LLaVA架構中的序列維度拼接的方式進行視覺-文本對齊。
語音模態(tài)
(1)語音離散化:Stream-Omni采用CosyVoiceTokenizer對語音輸入進行離散化,編碼為若干離散的語音單元(…)。
(2)語音到文本映射:為了充分利用LLM的能力,Stream-Omni在LLM的底部引入語音層,用于學習語音與文本之間的映射關系,從而將LLM中的文本能力遷移到語音模態(tài)中。Stream-Omni利用在ASR任務上的CTC損失直接監(jiān)督底部語音層語音表示,將其與文本模態(tài)對齊。
(3)文本生成:LLM基于輸入的視覺表示和語音表示,生成文本回復。
(4)文本到語音生成:Stream-Omni通過頂部語音層來完成文本到語音生成。為了在生成文本的同時生成語音單元,Stream-Omni在頂部語音層中引入了alignment-basedfusion模塊。Alignment-basedfusion沿用了StreamSpeech等實時生成研究中的同步生成策略,利用CTC對齊來指導同步生成過程。
任意模態(tài)組合下的多模態(tài)交互
Stream-Omni能夠通過靈活組合視覺編碼器、底部語音層、LLM、頂部語音層來實現任意模態(tài)組合下的交互。同時,由于層級維度語音文本映射,Stream-Omni能夠在語音到語音生成過程中提供中間的文本結果。
實驗結果
視覺理解能力
Stream-Omni和相同規(guī)模和數據量級的視覺大模型取得相當的表現。
語音交互能力
在事實性的語音交互上,Stream-Omni相比于現有方法具有優(yōu)勢,源于層級維度的語音文本映射將LLM的文本能力遷移到語音模態(tài)上。
基于視覺的語音交互能力
在本實例中,在指令分別通過文本和語音輸入的情況下,VITA-1.5給出了兩個相互矛盾的回答:“不允許前往二樓”和“直接通往二樓”。這一在面對不同模態(tài)指令時產生的矛盾回應,源于沿序列維度拼接視覺、語音和文本表示來實現多模態(tài)對齊的方法,并未對語音與文本模態(tài)之間的語義進行嚴格對齊建模。相比之下,Stream-Omni引入語音到文本的映射機制,實現了語音與文本表示之間更精確的語義對齊。因此,Stream-Omni在不同模態(tài)下表現更加一致,無論指令是通過文本還是語音輸入,都能生成相似的響應。另外,Stream-Omni還能生成高質量的語音回復,更多實例請在https://github.com/ictnlp/Stream-Omni體驗。
總結
Stream-Omni是一個GPT-4o式的文本-視覺-語音多模態(tài)大模型,能夠支持多種模態(tài)組合下的多模態(tài)交互。
Stream-Omni能夠在語音交互過程中輸出中間文本結果,為用戶提供更全面的多模態(tài)交互體驗。
Stream-Omni關注如何構建模態(tài)對齊,語音表現力等方面的增強不是本研究的重點,因此其在擬人化、音色多樣性等方面存在局限性。
10本追妻火葬場文,真香上頭之路!
不論是小醫(yī)仙、云韻,還是美杜莎女王,亦或是青梅竹馬的熏兒,都與蕭炎有著深厚的情感紐帶。然而,在動漫的劇情發(fā)展中,從小醫(yī)仙的友情戲份到云韻的邂逅,再到美杜莎女王與熏兒之間的情感抉擇,以及最后古元談話中刪除關于熏兒的情節(jié),這一連串的改編,似乎并非旨在塑造一個純愛戰(zhàn)神蕭炎,而是將他改為了一個近乎“..
五本讀者評選的都市生活高人氣小說,《風流小神醫(yī)》入選
在那里,他遇到了人稱“小醫(yī)仙”的女大夫施菀,才想起自己與她做過三年的夫妻,也才想起她的家鄉(xiāng)是安陸-。但她與記憶中那個膚淺無知而又心術不正的女人截然不同,她美貌,聰慧,善良,常露在臉上的笑容,如春風一樣撩撥著他的心_。他覺得這個小鎮(zhèn)也沒那么差,也有心想接她回京城_|。思慮良久,他和她道明心意——-。她等會說。
5本先虐女后虐男追妻火葬場古言,一夜荒唐,溫婉美人vs高嶺之花
自己現在所處的是一本叫《都市風流小醫(yī)仙》的劇情中,而身份則是主角陳宇剛下山遇到的第一個反派BOSS——。死的老慘了-。對此,曹謹言祝福這本書的狗作者生兒子沒蛋蛋。自己的身份和地位放在都市小說里已經算是很牛的了,正常來說捏死一個‘神醫(yī)下山流’的主角和捏死一只螞蟻沒什么區(qū)別,但因為狗作者一套無腦加降智的等我繼續(xù)說。
來源:紅網
作者:嬴晗日
編輯:星娜娜
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網立場。轉載請附原文出處鏈接和本聲明。