智東西作者云鵬編輯李水青
智東西8月4日消息,剛剛,小米公司正式開源聲音理解大模型MiDashengLM-7B。其聲音理解性能在22個(gè)公開評(píng)測(cè)集上刷新多模態(tài)大模型最好成績(jī)(SOTA),單樣本推理的首Token延遲(TTFT)為業(yè)界先進(jìn)模型的1/4,同等顯存下的數(shù)據(jù)吞吐效率是業(yè)界先進(jìn)模型的20倍以上。
具體來看,MiDashengLM-7B基于XiaomiDasheng作為音頻編碼器和Qwen2.5-Omni-7BThinker作為自回歸解碼器,通過通用音頻描述訓(xùn)練策略,實(shí)現(xiàn)了對(duì)語音、環(huán)境聲音和音樂的統(tǒng)一理解。
此前小米于2024年首次發(fā)布XiaomiDasheng聲音基座模型,此次開源的7B模型是該模型的擴(kuò)展。目前該系列模型在小米智能家居、汽車座艙等領(lǐng)域有30多個(gè)落地應(yīng)用。
小米稱,音頻理解是構(gòu)建全場(chǎng)景智能生態(tài)的關(guān)鍵領(lǐng)域。MiDashengLM通過統(tǒng)一理解語音、環(huán)境聲與音樂的跨領(lǐng)域能力,不僅能聽懂用戶周圍發(fā)生了什么事情,還能分析發(fā)現(xiàn)這些事情的隱藏含義,提高用戶場(chǎng)景理解的泛化性。
MiDashengLM的訓(xùn)練數(shù)據(jù)由100%公開數(shù)據(jù)構(gòu)成。
GitHub主頁:https://github.com/xiaomi-research/dasheng-lm技術(shù)報(bào)告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report模型參數(shù)(HuggingFace):https://huggingface.co/mispeech/midashenglm-7b模型參數(shù)(魔搭社區(qū)):https://modelscope.cn/models/midasheng/midashenglm-7b網(wǎng)頁Demo:https://xiaomi-research.github.io/dasheng-lm交互Demo:https://huggingface.co/spaces/mispeech/MiDashengLM
一、支持跨場(chǎng)景音頻理解能力,音頻編碼器多項(xiàng)關(guān)鍵測(cè)試超越Whisper
MiDashengLM在音頻描述、聲音理解、音頻問答任務(wù)中有比較明顯的優(yōu)勢(shì):
▲音頻描述任務(wù)性能(FENSE指標(biāo))
在音頻描述任務(wù)中,MiDashengLM-7B比Qwen、Kimi同類7B模型性能更強(qiáng)。
▲聲音理解任務(wù)性能
在聲音理解任務(wù)中,MiDashengLM-7B除FMA、VoxCeleb-Gender項(xiàng)目均領(lǐng)先于Qwen的7B模型,與Kimi的7B模型相比,僅有VoxCeleb-Gender項(xiàng)目略微落后。
▲語音識(shí)別任務(wù)性能(WER/CER指標(biāo))
在語音識(shí)別任務(wù)中,MiDashengLM-7B的主要優(yōu)勢(shì)在于GigaSpeech2,在其他兩組測(cè)試中Qwen和Kimi有一定優(yōu)勢(shì)。
▲音頻問答任務(wù)性能
其中,XiaomiDasheng音頻編碼器是MiDashengLM音頻理解能力的重要來源。在用于評(píng)估編碼器通用能力的X-ARESBenchmark上,XiaomiDasheng在多項(xiàng)關(guān)鍵任務(wù)上優(yōu)于作為Qwen2.5-Omni、Kimi-Audio等模型音頻編碼器的Whisper。
▲音頻編碼器在X-ARESBenchmark上的分?jǐn)?shù)對(duì)比
除了聲音理解,XiaomiDasheng還可以用于音頻生成任務(wù),如語音降噪、提取和增強(qiáng)。
二、推理效率提升,單樣本4倍加速與百倍并發(fā)支持
MiDashengLM的訓(xùn)練和推理效率是其另一項(xiàng)優(yōu)勢(shì)。對(duì)于單個(gè)樣本推理的情形,即batchsize為1時(shí),MiDashengLM的首個(gè)token預(yù)測(cè)時(shí)間(TTFT)為Qwen2.5-Omni-7B的1/4。
批次處理時(shí),在80GBGPU上處理30秒音頻并生成100個(gè)token的測(cè)試中,MiDashengLM可以把batchsize設(shè)置為512,而Qwen2.5-omni-7B在batchsize設(shè)置為16時(shí)即出現(xiàn)顯存溢出(OOM)。
▲Batchsize=1時(shí)TTFT和GMACS指標(biāo)對(duì)比
在實(shí)際部署中,MiDashengLM在同等硬件條件下可支持更多的并發(fā)請(qǐng)求量,降低計(jì)算成本。
▲80G顯存環(huán)境下模型每秒可處理的30s音頻個(gè)數(shù)
這背后,MiDashengLM基于XiaomiDasheng架構(gòu),在維持音頻理解核心性能指標(biāo)基本持平的前提下,通過優(yōu)化音頻編碼器設(shè)計(jì),將其輸出幀率從Qwen2.5-Omni的25Hz降至5Hz,降幅80%,降低了計(jì)算負(fù)載并實(shí)現(xiàn)了推理效率提升。
三、訓(xùn)練范式改變:從碎片化轉(zhuǎn)錄到全局語義刻畫
MiDashengLM采用通用音頻描述對(duì)齊范式,避免了用ASR轉(zhuǎn)錄數(shù)據(jù)對(duì)齊僅關(guān)注語音內(nèi)容而丟棄環(huán)境聲音和音樂信息,且無法捕捉說話人情感、空間混響等關(guān)鍵聲學(xué)特征的局限,通用描述對(duì)齊策略通過非單調(diào)的全局語義映射,迫使模型學(xué)習(xí)音頻場(chǎng)景的深層語義關(guān)聯(lián)。
該方法可以使用幾乎所有的數(shù)據(jù),包括噪聲或非語音內(nèi)容,而基于ASR轉(zhuǎn)錄的方法會(huì)丟棄非語音數(shù)據(jù)如環(huán)境聲或音樂,導(dǎo)致數(shù)據(jù)利用率低下,基于ASR的對(duì)齊方法在ACAV100M-Speech數(shù)據(jù)集上會(huì)損失90%潛在有用數(shù)據(jù)。
▲MiDashengLM訓(xùn)練框架
MiDashengLM的訓(xùn)練數(shù)據(jù)通過多專家分析管道生成:首先對(duì)原始音頻使用各種專家模型作語音、人聲、音樂和環(huán)境聲學(xué)的細(xì)粒度標(biāo)注,包括使用Dasheng-CED模型預(yù)測(cè)2秒粒度的聲音事件,再通過DeepSeek-R1推理大模型合成統(tǒng)一描述。
全部訓(xùn)練數(shù)據(jù)的原始標(biāo)簽在預(yù)訓(xùn)練中被棄用,只采用利用上述流程生成的新的豐富文本描述標(biāo)簽,以迫使模型學(xué)習(xí)更豐富全面的聲音信息。
其中,來自ACAV100M的開源數(shù)據(jù)集經(jīng)過上述流程重新標(biāo)注后,形成了新的ACAVCaps訓(xùn)練集和MECATBenchmark。MECATBenchmark已于近期開源,ACAVCaps數(shù)據(jù)集將在ICASSP論文評(píng)審后開放下載。
▲ACAVCaps訓(xùn)練數(shù)據(jù)集構(gòu)建流程
四、全棧開源,透明可復(fù)現(xiàn)
此次MiDashengLM訓(xùn)練數(shù)據(jù)100%來自公開數(shù)據(jù)集,涵蓋五類110萬小時(shí)資源,包括語音識(shí)別、環(huán)境聲音、音樂理解、語音副語言和問答任務(wù)等多項(xiàng)領(lǐng)域。
MiDashengLM完整公開了77個(gè)數(shù)據(jù)源的詳細(xì)配比,技術(shù)報(bào)告公開了從音頻編碼器預(yù)訓(xùn)練到指令微調(diào)的全流程。
據(jù)官方信息,小米已開始對(duì)XiaomiDasheng系列模型做計(jì)算效率的升級(jí),尋求終端設(shè)備上可離線部署。
結(jié)語:小米音頻大模型再拱一卒,多模態(tài)能力拼圖日趨完善
作為影響自然語言交互體驗(yàn)的關(guān)鍵技術(shù)之一,小米XiaomiDasheng系列模型此次的升級(jí),對(duì)其提升自家設(shè)備的AI交互體驗(yàn)有一定幫助,從智能家居、智能汽車到智能手機(jī),各類產(chǎn)品均能受益。
AI多模態(tài)是當(dāng)下業(yè)界主攻的方向之一,小米重心轉(zhuǎn)向造車后,在AI大模型領(lǐng)域發(fā)聲并不多,小米未來在多模態(tài)領(lǐng)域能否帶來更多模型創(chuàng)新,值得期待。
第一侯:以女子之身,執(zhí)掌四方軍馬,封侯拜相,做那千古第一侯!
好文推薦!(希行:第一侯)
5本古典架空好文:《第一侯》《金玉良醫(yī)》《似錦》超級(jí)好看!