智東西作者云鵬編輯李水青
智東西8月4日消息,剛剛,小米公司正式開(kāi)源聲音理解大模型MiDashengLM-7B。其聲音理解性能在22個(gè)公開(kāi)評(píng)測(cè)集上刷新多模態(tài)大模型最好成績(jī)(SOTA),單樣本推理的首Token延遲(TTFT)為業(yè)界先進(jìn)模型的1/4,同等顯存下的數(shù)據(jù)吞吐效率是業(yè)界先進(jìn)模型的20倍以上。
具體來(lái)看,MiDashengLM-7B基于XiaomiDasheng作為音頻編碼器和Qwen2.5-Omni-7BThinker作為自回歸解碼器,通過(guò)通用音頻描述訓(xùn)練策略,實(shí)現(xiàn)了對(duì)語(yǔ)音、環(huán)境聲音和音樂(lè)的統(tǒng)一理解。
此前小米于2024年首次發(fā)布XiaomiDasheng聲音基座模型,此次開(kāi)源的7B模型是該模型的擴(kuò)展。目前該系列模型在小米智能家居、汽車座艙等領(lǐng)域有30多個(gè)落地應(yīng)用。
小米稱,音頻理解是構(gòu)建全場(chǎng)景智能生態(tài)的關(guān)鍵領(lǐng)域。MiDashengLM通過(guò)統(tǒng)一理解語(yǔ)音、環(huán)境聲與音樂(lè)的跨領(lǐng)域能力,不僅能聽(tīng)懂用戶周圍發(fā)生了什么事情,還能分析發(fā)現(xiàn)這些事情的隱藏含義,提高用戶場(chǎng)景理解的泛化性。
MiDashengLM的訓(xùn)練數(shù)據(jù)由100%公開(kāi)數(shù)據(jù)構(gòu)成。
GitHub主頁(yè):https://github.com/xiaomi-research/dasheng-lm技術(shù)報(bào)告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report模型參數(shù)(HuggingFace):https://huggingface.co/mispeech/midashenglm-7b模型參數(shù)(魔搭社區(qū)):https://modelscope.cn/models/midasheng/midashenglm-7b網(wǎng)頁(yè)Demo:https://xiaomi-research.github.io/dasheng-lm交互Demo:https://huggingface.co/spaces/mispeech/MiDashengLM
一、支持跨場(chǎng)景音頻理解能力,音頻編碼器多項(xiàng)關(guān)鍵測(cè)試超越Whisper
MiDashengLM在音頻描述、聲音理解、音頻問(wèn)答任務(wù)中有比較明顯的優(yōu)勢(shì):
▲音頻描述任務(wù)性能(FENSE指標(biāo))
在音頻描述任務(wù)中,MiDashengLM-7B比Qwen、Kimi同類7B模型性能更強(qiáng)。
▲聲音理解任務(wù)性能
在聲音理解任務(wù)中,MiDashengLM-7B除FMA、VoxCeleb-Gender項(xiàng)目均領(lǐng)先于Qwen的7B模型,與Kimi的7B模型相比,僅有VoxCeleb-Gender項(xiàng)目略微落后。
▲語(yǔ)音識(shí)別任務(wù)性能(WER/CER指標(biāo))
在語(yǔ)音識(shí)別任務(wù)中,MiDashengLM-7B的主要優(yōu)勢(shì)在于GigaSpeech2,在其他兩組測(cè)試中Qwen和Kimi有一定優(yōu)勢(shì)。
▲音頻問(wèn)答任務(wù)性能
其中,XiaomiDasheng音頻編碼器是MiDashengLM音頻理解能力的重要來(lái)源。在用于評(píng)估編碼器通用能力的X-ARESBenchmark上,XiaomiDasheng在多項(xiàng)關(guān)鍵任務(wù)上優(yōu)于作為Qwen2.5-Omni、Kimi-Audio等模型音頻編碼器的Whisper。
▲音頻編碼器在X-ARESBenchmark上的分?jǐn)?shù)對(duì)比
除了聲音理解,XiaomiDasheng還可以用于音頻生成任務(wù),如語(yǔ)音降噪、提取和增強(qiáng)。
二、推理效率提升,單樣本4倍加速與百倍并發(fā)支持
MiDashengLM的訓(xùn)練和推理效率是其另一項(xiàng)優(yōu)勢(shì)。對(duì)于單個(gè)樣本推理的情形,即batchsize為1時(shí),MiDashengLM的首個(gè)token預(yù)測(cè)時(shí)間(TTFT)為Qwen2.5-Omni-7B的1/4。
批次處理時(shí),在80GBGPU上處理30秒音頻并生成100個(gè)token的測(cè)試中,MiDashengLM可以把batchsize設(shè)置為512,而Qwen2.5-omni-7B在batchsize設(shè)置為16時(shí)即出現(xiàn)顯存溢出(OOM)。
▲B(niǎo)atchsize=1時(shí)TTFT和GMACS指標(biāo)對(duì)比
在實(shí)際部署中,MiDashengLM在同等硬件條件下可支持更多的并發(fā)請(qǐng)求量,降低計(jì)算成本。
▲80G顯存環(huán)境下模型每秒可處理的30s音頻個(gè)數(shù)
這背后,MiDashengLM基于XiaomiDasheng架構(gòu),在維持音頻理解核心性能指標(biāo)基本持平的前提下,通過(guò)優(yōu)化音頻編碼器設(shè)計(jì),將其輸出幀率從Qwen2.5-Omni的25Hz降至5Hz,降幅80%,降低了計(jì)算負(fù)載并實(shí)現(xiàn)了推理效率提升。
三、訓(xùn)練范式改變:從碎片化轉(zhuǎn)錄到全局語(yǔ)義刻畫
MiDashengLM采用通用音頻描述對(duì)齊范式,避免了用ASR轉(zhuǎn)錄數(shù)據(jù)對(duì)齊僅關(guān)注語(yǔ)音內(nèi)容而丟棄環(huán)境聲音和音樂(lè)信息,且無(wú)法捕捉說(shuō)話人情感、空間混響等關(guān)鍵聲學(xué)特征的局限,通用描述對(duì)齊策略通過(guò)非單調(diào)的全局語(yǔ)義映射,迫使模型學(xué)習(xí)音頻場(chǎng)景的深層語(yǔ)義關(guān)聯(lián)。
該方法可以使用幾乎所有的數(shù)據(jù),包括噪聲或非語(yǔ)音內(nèi)容,而基于ASR轉(zhuǎn)錄的方法會(huì)丟棄非語(yǔ)音數(shù)據(jù)如環(huán)境聲或音樂(lè),導(dǎo)致數(shù)據(jù)利用率低下,基于ASR的對(duì)齊方法在ACAV100M-Speech數(shù)據(jù)集上會(huì)損失90%潛在有用數(shù)據(jù)。
▲MiDashengLM訓(xùn)練框架
MiDashengLM的訓(xùn)練數(shù)據(jù)通過(guò)多專家分析管道生成:首先對(duì)原始音頻使用各種專家模型作語(yǔ)音、人聲、音樂(lè)和環(huán)境聲學(xué)的細(xì)粒度標(biāo)注,包括使用Dasheng-CED模型預(yù)測(cè)2秒粒度的聲音事件,再通過(guò)DeepSeek-R1推理大模型合成統(tǒng)一描述。
全部訓(xùn)練數(shù)據(jù)的原始標(biāo)簽在預(yù)訓(xùn)練中被棄用,只采用利用上述流程生成的新的豐富文本描述標(biāo)簽,以迫使模型學(xué)習(xí)更豐富全面的聲音信息。
其中,來(lái)自ACAV100M的開(kāi)源數(shù)據(jù)集經(jīng)過(guò)上述流程重新標(biāo)注后,形成了新的ACAVCaps訓(xùn)練集和MECATBenchmark。MECATBenchmark已于近期開(kāi)源,ACAVCaps數(shù)據(jù)集將在ICASSP論文評(píng)審后開(kāi)放下載。
▲ACAVCaps訓(xùn)練數(shù)據(jù)集構(gòu)建流程
四、全棧開(kāi)源,透明可復(fù)現(xiàn)
此次MiDashengLM訓(xùn)練數(shù)據(jù)100%來(lái)自公開(kāi)數(shù)據(jù)集,涵蓋五類110萬(wàn)小時(shí)資源,包括語(yǔ)音識(shí)別、環(huán)境聲音、音樂(lè)理解、語(yǔ)音副語(yǔ)言和問(wèn)答任務(wù)等多項(xiàng)領(lǐng)域。
MiDashengLM完整公開(kāi)了77個(gè)數(shù)據(jù)源的詳細(xì)配比,技術(shù)報(bào)告公開(kāi)了從音頻編碼器預(yù)訓(xùn)練到指令微調(diào)的全流程。
據(jù)官方信息,小米已開(kāi)始對(duì)XiaomiDasheng系列模型做計(jì)算效率的升級(jí),尋求終端設(shè)備上可離線部署。
結(jié)語(yǔ):小米音頻大模型再拱一卒,多模態(tài)能力拼圖日趨完善
作為影響自然語(yǔ)言交互體驗(yàn)的關(guān)鍵技術(shù)之一,小米XiaomiDasheng系列模型此次的升級(jí),對(duì)其提升自家設(shè)備的AI交互體驗(yàn)有一定幫助,從智能家居、智能汽車到智能手機(jī),各類產(chǎn)品均能受益。
AI多模態(tài)是當(dāng)下業(yè)界主攻的方向之一,小米重心轉(zhuǎn)向造車后,在AI大模型領(lǐng)域發(fā)聲并不多,小米未來(lái)在多模態(tài)領(lǐng)域能否帶來(lái)更多模型創(chuàng)新,值得期待。