這項由阿里巴巴Qwen團隊開發(fā)的突破性研究發(fā)表于2025年3月27日,名為《Qwen2.5-OmniTechnicalReport》。有興趣深入了解的讀者可以通過arXiv:2503.20215v1訪問完整論文,或者在HuggingFace、ModelScope和GitHub上找到相關代碼和模型。
人類在日常生活中能夠同時看到畫面、聽到聲音,然后用語言或表情來回應——這看起來很自然的能力,對于人工智能來說卻是一個巨大的挑戰(zhàn)。就像讓一個機器人同時學會聽音樂、看電影,還要能即時發(fā)表感想一樣困難。不過,阿里巴巴的Qwen團隊剛剛在這個方向上取得了重大突破,他們開發(fā)出了一個名為Qwen2.5-Omni的AI模型,這個"全能型選手"不僅能同時理解文字、圖片、音頻和視頻,還能像人類一樣實時地用文字和語音來回應。
這項研究的創(chuàng)新之處在于解決了一個關鍵問題:如何讓AI同時處理多種信息輸入,并且能夠流暢地進行"思考"和"說話"。以往的AI要么擅長看圖片,要么擅長聽聲音,很少有能同時做好這些事情的。而Qwen2.5-Omni就像一個真正的"多面手",能夠在觀看視頻的同時聽取音頻內容,然后實時地用自然語言回應用戶的問題。更令人印象深刻的是,它能夠同時生成文字回答和語音回答,就像人類大腦指揮嘴巴說話的同時,手也能寫字一樣。
一、破解多模態(tài)理解的時間同步難題
當我們看電影時,畫面和聲音是完美同步的——演員說話時嘴唇的動作和聲音完全對應。但對AI來說,要做到這種同步理解卻不簡單。Qwen團隊首先要解決的就是如何讓AI正確理解視頻中的畫面和音頻之間的時間關系。
研究團隊提出了一個叫做TMRoPE(Time-alignedMultimodalRoPE)的新方法。用一個簡單的比喻來說,這就像給AI裝上了一塊精準的時鐘,讓它能夠準確記錄每個畫面和每個聲音出現的具體時間。傳統的AI處理視頻時,往往把畫面和聲音分開處理,就像兩個人分別看無聲電影和聽廣播劇,然后試圖拼湊出完整故事一樣。而TMRoPE技術讓AI能夠像人類一樣,同時感知畫面和聲音,并且清楚地知道它們之間的對應關系。
具體來說,這個技術把時間信息分解成三個維度:時間位置、畫面高度和畫面寬度。對于文字輸入,這三個維度使用相同的位置標識,就像給每個字詞貼上相同的時間標簽。對于音頻,系統每40毫秒設置一個時間點,確保音頻處理的精確性。當處理圖片時,時間位置保持不變,但會根據圖片中每個區(qū)域的位置分配不同的高度和寬度標識。最有趣的是處理帶音頻的視頻:系統會動態(tài)調整每一幀的時間標識,確保一個時間單位始終對應40毫秒的真實時間。
為了讓AI能夠同時接收視覺和聽覺信息,研究團隊還設計了一種"時間交錯"的處理方法。他們將視頻按照2秒鐘為單位進行分段,在每個2秒的片段中,先處理視覺信息,再處理音頻信息,然后將兩者交錯排列。這就像閱讀一本交替出現圖片和文字說明的雜志,AI能夠自然地理解兩者之間的關聯。
二、"思考者-說話者"架構:模擬人類大腦分工
人類能夠同時思考和說話,這得益于大腦的精妙分工。當我們回答問題時,大腦的某個區(qū)域負責思考和組織語言,另一個區(qū)域則控制發(fā)聲器官。Qwen團隊受到這種自然分工的啟發(fā),設計了一個叫做"Thinker-Talker"(思考者-說話者)的架構。
在這個架構中,"Thinker"就像人類的大腦,負責處理和理解來自文字、音頻、圖片和視頻的各種信息,然后生成高級的語義表示和相應的文字回答。它使用的是類似現有大語言模型的Transformer解碼器結構,配備了專門的音頻和圖像編碼器來提取信息。
"Talker"則像人類的發(fā)聲系統,專門負責將"Thinker"產生的高級表示轉換成流暢的語音。它采用雙軌自回歸Transformer解碼器架構,這個設計靈感來自Mini-Omni模型。在訓練和推理過程中,"Talker"直接接收來自"Thinker"的高維表示,并且共享"Thinker"的所有歷史上下文信息。這樣,整個架構就像一個統一的大腦,能夠進行端到端的訓練和推理。
這種設計的巧妙之處在于,"Thinker"和"Talker"雖然分工不同,但它們通過共享信息緊密協作。當用戶提出問題時,"Thinker"不僅要生成文字答案,還要為"Talker"提供足夠的語義信息,讓它能夠以合適的語調、情感和節(jié)奏來"說出"答案。這就像一個人在回答問題時,大腦不僅要組織語言內容,還要考慮用什么樣的語氣來表達。
三、實現真正的流式處理和低延遲
在實際應用中,用戶希望AI能夠像真人對話一樣,問題剛提出就能立即開始回答,而不是等待很長時間后才給出完整回復。這就要求AI具備"流式處理"的能力——能夠邊接收信息邊處理,邊思考邊回答。
為了實現這種能力,研究團隊對所有的多模態(tài)編碼器都進行了改進,采用"塊級流式處理"的方法。這就像將一本厚書分成若干章節(jié),AI不需要讀完整本書才開始理解,而是讀完一章就能理解一章的內容。具體來說,音頻編碼器從原來的對整段音頻進行完整處理,改為每2秒為一個處理塊進行注意力計算。視覺編碼器則利用高效的flashattention技術,配合簡單的MLP層將相鄰的2×2圖像區(qū)域合并成單個標記,讓不同分辨率的圖像都能被有效處理。
在語音生成方面,團隊設計了一個高效的語音編解碼器qwen-tts-tokenizer。這個編解碼器能夠高效地表示語音的關鍵信息,并且能夠通過因果音頻解碼器以流式方式解碼成語音。語音生成不需要與文字進行詞級別或時間戳級別的對齊,這大大簡化了訓練數據的要求和推理過程。
為了進一步降低延遲,研究團隊還提出了滑動窗口機制的DiT模型。這個機制限制了當前標記能訪問的上下文范圍,專門用于將音頻代碼轉換為波形。他們將相鄰的代碼分組成塊,限制DiT的感受野為4個塊(包括向前看2個塊和向后看1個塊)。在解碼過程中,使用FlowMatching技術分塊生成梅爾頻譜圖,確保每個代碼塊都能訪問必要的上下文信息。這種方法通過維持上下文信息來提高流式輸出的質量。
四、三階段訓練策略:從基礎到精通
要訓練出這樣一個"全能選手",需要循序漸進的策略。Qwen團隊設計了三個訓練階段,就像培養(yǎng)一個學生從入門到精通的過程。
第一階段類似于"打基礎"。研究團隊鎖定大語言模型的參數,專門訓練視覺編碼器和音頻編碼器。這個階段使用大量的音頻-文字和圖像-文字配對數據,讓AI學會基本的視覺和聽覺理解能力。就像先讓學生分別學好看圖說話和聽音識字,為后續(xù)的綜合學習做準備。模型的LLM部分使用Qwen2.5的參數進行初始化,視覺編碼器與Qwen2.5-VL相同,音頻編碼器則用Whisper-large-v3進行初始化。兩個編碼器在固定的LLM上分別訓練,首先訓練各自的適配器,然后再訓練編碼器本身。
第二階段是"融會貫通"的過程。團隊解凍所有參數,使用更廣泛的多模態(tài)數據進行訓練。這個階段引入了800億個圖像和視頻相關的標記、300億個音頻相關的標記,以及100億個視頻音頻相關的標記。這個階段的目標是讓模型學會同時處理多種模態(tài)的任務,增強聽覺、視覺和文本信息之間的交互和理解。就像讓學生學會同時看圖、聽音、閱讀,并且能夠綜合這些信息來回答復雜問題。
第三階段是"登峰造極"的訓練。團隊使用序列長度為32k的數據來增強模型理解復雜長序列數據的能力。在前兩個階段中,為了提高訓練效率,最大標記長度被限制在8192個標記。在這個階段,研究者加入了長音頻和長視頻數據,并將原有的文本、音頻、圖像和視頻數據擴展到32768個標記進行訓練。實驗結果表明,這種數據在支持長序列數據方面顯示出顯著改進。
五、讓AI也能"說話":語音生成的三步走
除了理解多種輸入,Qwen2.5-Omni還需要學會"說話"。這個過程也分為三個階段,就像訓練一個播音員一樣。
第一階段是"模仿學習"。在這個上下文學習(ICL)訓練階段,除了使用類似"Thinker"的文本監(jiān)督外,系統還通過下一個標記預測來執(zhí)行語音延續(xù)任務。團隊使用包含多模態(tài)上下文和語音回答的大量對話數據集。"Talker"學會建立從語義表示到語音的單調映射,同時學會表達適合上下文的多樣化語音屬性,如韻律、情感和口音。此外,團隊還實施了音色分離技術,防止模型將特定聲音與不常見的文本模式關聯起來。
第二階段是"糾錯改進"。由于預訓練數據不可避免地包含標簽噪音和發(fā)音錯誤,導致模型產生幻覺,團隊引入了強化學習階段來提高語音生成的穩(wěn)定性。具體來說,對于每個請求和回答文本以及參考語音,他們構建一個包含三元組數據(x,yw,yl)的數據集D,其中x是包含輸入文本的輸入序列,yw和yl分別是好的和壞的生成語音序列。團隊根據與詞錯誤率(WER)和標點暫停錯誤率相關的獎勵分數對這些樣本進行排名,使用DPO算法來優(yōu)化模型。
第三階段是"個性化定制"。團隊在前述基礎模型上執(zhí)行說話人微調,使"Talker"能夠采用特定的聲音并提高其自然度。這就像讓AI學會模仿不同人的說話風格和聲音特色,使生成的語音更加多樣化和自然。
六、性能表現:全方位的能力驗證
要驗證Qwen2.5-Omni的實際能力,研究團隊進行了全面的測試,涵蓋了理解和生成兩大方面。
在理解能力方面,Qwen2.5-Omni在多個維度都表現出色。在文本理解方面,模型在MMLU-Pro、GSM8K、MATH等基準測試中的表現介于Qwen2-7B和Qwen2.5-7B之間,在大多數基準測試中都超過了Qwen2-7B。在音頻理解方面,模型在自動語音識別(ASR)和語音到文本翻譯(S2TT)任務上表現優(yōu)異,在Fleurs_zh、CommonVoice_en等測試集上超越了之前的最先進模型如Whisper-large-v3和Qwen2Audio。
特別值得關注的是,Qwen2.5-Omni在端到端語音指令跟隨方面的表現與其處理文本輸入的能力相當。在將文本指令轉換為語音指令的測試中,Qwen2.5-Omni顯著縮小了與使用文本指令的Qwen2-7B之間的性能差距。例如,在MMLU測試中,使用文本指令的Qwen2-7B得分為69.3,而Qwen2.5-Omni使用語音指令的得分達到了65.6,這表明模型在語音理解方面取得了實質性進展。
在圖像理解方面,Qwen2.5-Omni與Qwen2.5-VL-7B的性能相當,在MMMU、MathVision、MMBench-V1.1-EN等基準測試中表現出色。在視頻理解任務中,模型在Video-MME、MVBench和EgoSchema等代表性測試中都超越了其他同類開源模型和GPT-4o-Mini。
在多模態(tài)理解方面,Qwen2.5-Omni在OmniBench基準測試中達到了最先進的性能,平均得分56.13%,遠超其他Omni模型。這個基準測試專門評估模型處理混合模態(tài)(圖像、音頻和文本)提示的能力。
在語音生成方面,Qwen2.5-Omni也表現出色。在SEED測試集上,模型在零樣本語音生成任務中表現出高度競爭力的性能。在內容一致性方面,Qwen2.5-Omni經過強化學習優(yōu)化后,在test-zh、test-en和test-hard測試集上的詞錯誤率分別為1.42%、2.33%和6.54%,超越了MaskGCT和CosyVoice2等現有模型。在說話人相似度方面,模型也保持了良好的性能。
七、技術創(chuàng)新的深層意義
Qwen2.5-Omni的技術創(chuàng)新不僅僅體現在性能指標上,更重要的是它代表了AI發(fā)展的一個重要方向轉變。傳統的AI系統往往是"專才"——要么擅長處理文本,要么擅長處理圖像或音頻。而這個模型展示了AI向"通才"發(fā)展的可能性。
TMRoPE技術的提出解決了多模態(tài)AI面臨的一個核心問題:如何準確理解不同模態(tài)信息之間的時間關系。這個技術不僅適用于視頻理解,還可以擴展到其他需要時序對齊的應用場景,比如同聲傳譯、多媒體內容分析等。
"Thinker-Talker"架構的設計體現了對人類認知機制的深度理解和模擬。這種架構不僅提高了AI的處理效率,還為未來開發(fā)更復雜的多模態(tài)AI系統提供了新的思路。通過將理解和表達功能進行合理分工,AI能夠更好地模擬人類的交流方式。
流式處理能力的實現讓AI能夠進行更自然的實時交互。這對于語音助手、在線客服、教育應用等場景具有重要意義。用戶不再需要等待AI處理完所有信息后才得到回應,而是能夠體驗到更接近人類對話的交互方式。
八、實際應用前景與挑戰(zhàn)
Qwen2.5-Omni的能力為許多實際應用場景帶來了新的可能性。在教育領域,這種多模態(tài)AI可以同時分析學生的語音提問、書面作業(yè)和視頻表現,提供更全面的學習支持。在客服領域,AI能夠同時理解用戶的語音描述、屏幕截圖和操作視頻,提供更精準的技術支持。
在內容創(chuàng)作方面,Qwen2.5-Omni可以協助創(chuàng)作者進行視頻解說、音頻制作和多媒體內容編輯。它能夠理解視頻內容,生成相應的解說詞,并用自然的語音進行播報,大大提高了內容創(chuàng)作的效率。
在無障礙技術方面,這個模型可以為視障或聽障用戶提供更好的輔助服務。它可以將視覺信息轉換為語音描述,或者將音頻內容轉換為文字顯示,幫助不同能力的用戶更好地獲取信息。
然而,這種技術的發(fā)展也面臨一些挑戰(zhàn)。首先是計算資源的需求。同時處理多種模態(tài)的信息需要大量的計算能力,這可能限制了模型在移動設備或邊緣計算環(huán)境中的應用。其次是數據質量和標注的問題。訓練這樣的多模態(tài)模型需要大量高質量的多模態(tài)數據,而這些數據的獲取和標注成本很高。
此外,隨著AI能夠生成越來越逼真的語音和理解越來越復雜的多媒體內容,如何確保技術的負責任使用也成為一個重要考量。需要建立相應的安全機制和使用規(guī)范,防止技術被惡意利用。
九、未來發(fā)展方向
研究團隊在論文中也指出了一些在模型開發(fā)過程中發(fā)現的關鍵問題,這些問題為未來的研究方向提供了指引。例如,視頻OCR(光學字符識別)和音視頻協同理解等問題在以往的學術研究中經常被忽視,但對于實際應用卻至關重要。
團隊認為,解決這些挑戰(zhàn)需要學術界和工業(yè)界的密切合作,特別是在構建全面的評估基準和研究數據集方面。他們相信Qwen2.5-Omni代表了向人工通用智能(AGI)邁進的重要一步。
未來的目標包括開發(fā)更加穩(wěn)健和快速的模型,擴展輸出能力到其他模態(tài),如圖像、視頻和音樂生成。這意味著AI不僅能夠理解多種形式的輸入,還能夠創(chuàng)造多種形式的輸出,真正實現全方位的智能交互。
研究團隊還計劃繼續(xù)優(yōu)化模型的效率和準確性,使其能夠在更多的實際場景中得到應用。他們希望通過持續(xù)的技術創(chuàng)新和優(yōu)化,讓這種多模態(tài)AI技術能夠真正服務于人類的日常生活和工作。
說到底,Qwen2.5-Omni的出現標志著AI技術發(fā)展的一個重要里程碑。它展示了AI從單一功能向綜合能力發(fā)展的可能性,為我們描繪了一個AI能夠更自然、更全面地理解和響應人類需求的未來。雖然還有許多技術挑戰(zhàn)需要克服,但這項研究為多模態(tài)AI的發(fā)展開辟了新的道路,也為我們思考AI與人類交互的未來方式提供了寶貴的啟示。對于普通用戶來說,這意味著未來的AI助手將能夠更好地理解我們的多種表達方式,并以更自然的方式與我們交流,真正成為我們生活和工作中的智能伙伴。
Q&A
Q1:Qwen2.5-Omni和普通的AI助手有什么區(qū)別?A:最大的區(qū)別是Qwen2.5-Omni能同時理解文字、圖片、音頻和視頻,并且能實時用文字和語音回答。普通AI助手通常只能處理一種輸入方式,比如只能聊天或只能看圖。而Qwen2.5-Omni就像一個真正的"全能助手",你可以給它看視頻、說話、發(fā)圖片,它都能理解并自然回應。
Q2:這個AI的語音生成效果怎么樣?會不會很機械?A:根據測試結果,Qwen2.5-Omni的語音生成效果相當不錯。在專業(yè)測試中,它的詞錯誤率只有1.42%-6.54%,說話人相似度也很高。更重要的是,它能根據對話內容調整語調和情感,不會像傳統語音合成那樣機械。而且它支持流式生成,能邊思考邊說話,更接近人類的對話方式。
Q3:普通人現在能使用Qwen2.5-Omni嗎?A:目前Qwen2.5-Omni主要還是研究階段的技術展示,論文和代碼已經在GitHub、HuggingFace等平臺開源。普通用戶可以通過這些平臺了解技術細節(jié),但要真正使用可能需要一定的技術背景。不過,相信不久的將來會有基于這項技術的產品化應用出現,讓普通用戶也能體驗到這種多模態(tài)AI的強大能力。
古風甜文,“父王說,越是喜歡一個人,就越喜歡欺負他”
穿越種田文:剛穿來娘難產撒手人寰,為了弟弟,她利用空間發(fā)家致富
設定新穎的私藏讀物《農門醫(yī)妃:妖孽王爺太難養(yǎng)》,撩妹指南本尊無...