舒綠瓊
智東西作者云鵬編輯李水青
智東西8月4日消息,剛剛,小米公司正式開源聲音理解大模型MiDashengLM-7B。其聲音理解性能在22個公開評測集上刷新多模態(tài)大模型最好成績(SOTA),單樣本推理的首Token延遲(TTFT)為業(yè)界先進模型的1/4,同等顯存下的數(shù)據(jù)吞吐效率是業(yè)界先進模型的20倍以上。
具體來看,MiDashengLM-7B基于XiaomiDasheng作為音頻編碼器和Qwen2.5-Omni-7BThinker作為自回歸解碼器,通過通用音頻描述訓練策略,實現(xiàn)了對語音、環(huán)境聲音和音樂的統(tǒng)一理解。
此前小米于2024年首次發(fā)布XiaomiDasheng聲音基座模型,此次開源的7B模型是該模型的擴展。目前該系列模型在小米智能家居、汽車座艙等領(lǐng)域有30多個落地應(yīng)用。
小米稱,音頻理解是構(gòu)建全場景智能生態(tài)的關(guān)鍵領(lǐng)域。MiDashengLM通過統(tǒng)一理解語音、環(huán)境聲與音樂的跨領(lǐng)域能力,不僅能聽懂用戶周圍發(fā)生了什么事情,還能分析發(fā)現(xiàn)這些事情的隱藏含義,提高用戶場景理解的泛化性。
MiDashengLM的訓練數(shù)據(jù)由100%公開數(shù)據(jù)構(gòu)成。
GitHub主頁:https://github.com/xiaomi-research/dasheng-lm技術(shù)報告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report模型參數(shù)(HuggingFace):https://huggingface.co/mispeech/midashenglm-7b模型參數(shù)(魔搭社區(qū)):https://modelscope.cn/models/midasheng/midashenglm-7b網(wǎng)頁Demo:https://xiaomi-research.github.io/dasheng-lm交互Demo:https://huggingface.co/spaces/mispeech/MiDashengLM
一、支持跨場景音頻理解能力,音頻編碼器多項關(guān)鍵測試超越Whisper
MiDashengLM在音頻描述、聲音理解、音頻問答任務(wù)中有比較明顯的優(yōu)勢:
▲音頻描述任務(wù)性能(FENSE指標)
在音頻描述任務(wù)中,MiDashengLM-7B比Qwen、Kimi同類7B模型性能更強。
▲聲音理解任務(wù)性能
在聲音理解任務(wù)中,MiDashengLM-7B除FMA、VoxCeleb-Gender項目均領(lǐng)先于Qwen的7B模型,與Kimi的7B模型相比,僅有VoxCeleb-Gender項目略微落后。
▲語音識別任務(wù)性能(WER/CER指標)
在語音識別任務(wù)中,MiDashengLM-7B的主要優(yōu)勢在于GigaSpeech2,在其他兩組測試中Qwen和Kimi有一定優(yōu)勢。
▲音頻問答任務(wù)性能
其中,XiaomiDasheng音頻編碼器是MiDashengLM音頻理解能力的重要來源。在用于評估編碼器通用能力的X-ARESBenchmark上,XiaomiDasheng在多項關(guān)鍵任務(wù)上優(yōu)于作為Qwen2.5-Omni、Kimi-Audio等模型音頻編碼器的Whisper。
▲音頻編碼器在X-ARESBenchmark上的分數(shù)對比
除了聲音理解,XiaomiDasheng還可以用于音頻生成任務(wù),如語音降噪、提取和增強。
二、推理效率提升,單樣本4倍加速與百倍并發(fā)支持
MiDashengLM的訓練和推理效率是其另一項優(yōu)勢。對于單個樣本推理的情形,即batchsize為1時,MiDashengLM的首個token預(yù)測時間(TTFT)為Qwen2.5-Omni-7B的1/4。
批次處理時,在80GBGPU上處理30秒音頻并生成100個token的測試中,MiDashengLM可以把batchsize設(shè)置為512,而Qwen2.5-omni-7B在batchsize設(shè)置為16時即出現(xiàn)顯存溢出(OOM)。
▲Batchsize=1時TTFT和GMACS指標對比
在實際部署中,MiDashengLM在同等硬件條件下可支持更多的并發(fā)請求量,降低計算成本。
▲80G顯存環(huán)境下模型每秒可處理的30s音頻個數(shù)
這背后,MiDashengLM基于XiaomiDasheng架構(gòu),在維持音頻理解核心性能指標基本持平的前提下,通過優(yōu)化音頻編碼器設(shè)計,將其輸出幀率從Qwen2.5-Omni的25Hz降至5Hz,降幅80%,降低了計算負載并實現(xiàn)了推理效率提升。
三、訓練范式改變:從碎片化轉(zhuǎn)錄到全局語義刻畫
MiDashengLM采用通用音頻描述對齊范式,避免了用ASR轉(zhuǎn)錄數(shù)據(jù)對齊僅關(guān)注語音內(nèi)容而丟棄環(huán)境聲音和音樂信息,且無法捕捉說話人情感、空間混響等關(guān)鍵聲學特征的局限,通用描述對齊策略通過非單調(diào)的全局語義映射,迫使模型學習音頻場景的深層語義關(guān)聯(lián)。
該方法可以使用幾乎所有的數(shù)據(jù),包括噪聲或非語音內(nèi)容,而基于ASR轉(zhuǎn)錄的方法會丟棄非語音數(shù)據(jù)如環(huán)境聲或音樂,導致數(shù)據(jù)利用率低下,基于ASR的對齊方法在ACAV100M-Speech數(shù)據(jù)集上會損失90%潛在有用數(shù)據(jù)。
▲MiDashengLM訓練框架
MiDashengLM的訓練數(shù)據(jù)通過多專家分析管道生成:首先對原始音頻使用各種專家模型作語音、人聲、音樂和環(huán)境聲學的細粒度標注,包括使用Dasheng-CED模型預(yù)測2秒粒度的聲音事件,再通過DeepSeek-R1推理大模型合成統(tǒng)一描述。
全部訓練數(shù)據(jù)的原始標簽在預(yù)訓練中被棄用,只采用利用上述流程生成的新的豐富文本描述標簽,以迫使模型學習更豐富全面的聲音信息。
其中,來自ACAV100M的開源數(shù)據(jù)集經(jīng)過上述流程重新標注后,形成了新的ACAVCaps訓練集和MECATBenchmark。MECATBenchmark已于近期開源,ACAVCaps數(shù)據(jù)集將在ICASSP論文評審后開放下載。
▲ACAVCaps訓練數(shù)據(jù)集構(gòu)建流程
四、全棧開源,透明可復(fù)現(xiàn)
此次MiDashengLM訓練數(shù)據(jù)100%來自公開數(shù)據(jù)集,涵蓋五類110萬小時資源,包括語音識別、環(huán)境聲音、音樂理解、語音副語言和問答任務(wù)等多項領(lǐng)域。
MiDashengLM完整公開了77個數(shù)據(jù)源的詳細配比,技術(shù)報告公開了從音頻編碼器預(yù)訓練到指令微調(diào)的全流程。
據(jù)官方信息,小米已開始對XiaomiDasheng系列模型做計算效率的升級,尋求終端設(shè)備上可離線部署。
結(jié)語:小米音頻大模型再拱一卒,多模態(tài)能力拼圖日趨完善
作為影響自然語言交互體驗的關(guān)鍵技術(shù)之一,小米XiaomiDasheng系列模型此次的升級,對其提升自家設(shè)備的AI交互體驗有一定幫助,從智能家居、智能汽車到智能手機,各類產(chǎn)品均能受益。
AI多模態(tài)是當下業(yè)界主攻的方向之一,小米重心轉(zhuǎn)向造車后,在AI大模型領(lǐng)域發(fā)聲并不多,小米未來在多模態(tài)領(lǐng)域能否帶來更多模型創(chuàng)新,值得期待。
來源:紅網(wǎng)
作者:禹俊明
編輯:敖憐陽
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。