王俊吉
智東西作者云鵬編輯李水青
智東西8月4日消息,剛剛,小米公司正式開源聲音理解大模型MiDashengLM-7B。其聲音理解性能在22個公開評測集上刷新多模態(tài)大模型最好成績(SOTA),單樣本推理的首Token延遲(TTFT)為業(yè)界先進模型的1/4,同等顯存下的數(shù)據(jù)吞吐效率是業(yè)界先進模型的20倍以上。
具體來看,MiDashengLM-7B基于XiaomiDasheng作為音頻編碼器和Qwen2.5-Omni-7BThinker作為自回歸解碼器,通過通用音頻描述訓(xùn)練策略,實現(xiàn)了對語音、環(huán)境聲音和音樂的統(tǒng)一理解。
此前小米于2024年首次發(fā)布XiaomiDasheng聲音基座模型,此次開源的7B模型是該模型的擴展。目前該系列模型在小米智能家居、汽車座艙等領(lǐng)域有30多個落地應(yīng)用。
小米稱,音頻理解是構(gòu)建全場景智能生態(tài)的關(guān)鍵領(lǐng)域。MiDashengLM通過統(tǒng)一理解語音、環(huán)境聲與音樂的跨領(lǐng)域能力,不僅能聽懂用戶周圍發(fā)生了什么事情,還能分析發(fā)現(xiàn)這些事情的隱藏含義,提高用戶場景理解的泛化性。
MiDashengLM的訓(xùn)練數(shù)據(jù)由100%公開數(shù)據(jù)構(gòu)成。
GitHub主頁:https://github.com/xiaomi-research/dasheng-lm技術(shù)報告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report模型參數(shù)(HuggingFace):https://huggingface.co/mispeech/midashenglm-7b模型參數(shù)(魔搭社區(qū)):https://modelscope.cn/models/midasheng/midashenglm-7b網(wǎng)頁Demo:https://xiaomi-research.github.io/dasheng-lm交互Demo:https://huggingface.co/spaces/mispeech/MiDashengLM
一、支持跨場景音頻理解能力,音頻編碼器多項關(guān)鍵測試超越Whisper
MiDashengLM在音頻描述、聲音理解、音頻問答任務(wù)中有比較明顯的優(yōu)勢:
▲音頻描述任務(wù)性能(FENSE指標(biāo))
在音頻描述任務(wù)中,MiDashengLM-7B比Qwen、Kimi同類7B模型性能更強。
▲聲音理解任務(wù)性能
在聲音理解任務(wù)中,MiDashengLM-7B除FMA、VoxCeleb-Gender項目均領(lǐng)先于Qwen的7B模型,與Kimi的7B模型相比,僅有VoxCeleb-Gender項目略微落后。
▲語音識別任務(wù)性能(WER/CER指標(biāo))
在語音識別任務(wù)中,MiDashengLM-7B的主要優(yōu)勢在于GigaSpeech2,在其他兩組測試中Qwen和Kimi有一定優(yōu)勢。
▲音頻問答任務(wù)性能
其中,XiaomiDasheng音頻編碼器是MiDashengLM音頻理解能力的重要來源。在用于評估編碼器通用能力的X-ARESBenchmark上,XiaomiDasheng在多項關(guān)鍵任務(wù)上優(yōu)于作為Qwen2.5-Omni、Kimi-Audio等模型音頻編碼器的Whisper。
▲音頻編碼器在X-ARESBenchmark上的分?jǐn)?shù)對比
除了聲音理解,XiaomiDasheng還可以用于音頻生成任務(wù),如語音降噪、提取和增強。
二、推理效率提升,單樣本4倍加速與百倍并發(fā)支持
MiDashengLM的訓(xùn)練和推理效率是其另一項優(yōu)勢。對于單個樣本推理的情形,即batchsize為1時,MiDashengLM的首個token預(yù)測時間(TTFT)為Qwen2.5-Omni-7B的1/4。
批次處理時,在80GBGPU上處理30秒音頻并生成100個token的測試中,MiDashengLM可以把batchsize設(shè)置為512,而Qwen2.5-omni-7B在batchsize設(shè)置為16時即出現(xiàn)顯存溢出(OOM)。
▲Batchsize=1時TTFT和GMACS指標(biāo)對比
在實際部署中,MiDashengLM在同等硬件條件下可支持更多的并發(fā)請求量,降低計算成本。
▲80G顯存環(huán)境下模型每秒可處理的30s音頻個數(shù)
這背后,MiDashengLM基于XiaomiDasheng架構(gòu),在維持音頻理解核心性能指標(biāo)基本持平的前提下,通過優(yōu)化音頻編碼器設(shè)計,將其輸出幀率從Qwen2.5-Omni的25Hz降至5Hz,降幅80%,降低了計算負載并實現(xiàn)了推理效率提升。
三、訓(xùn)練范式改變:從碎片化轉(zhuǎn)錄到全局語義刻畫
MiDashengLM采用通用音頻描述對齊范式,避免了用ASR轉(zhuǎn)錄數(shù)據(jù)對齊僅關(guān)注語音內(nèi)容而丟棄環(huán)境聲音和音樂信息,且無法捕捉說話人情感、空間混響等關(guān)鍵聲學(xué)特征的局限,通用描述對齊策略通過非單調(diào)的全局語義映射,迫使模型學(xué)習(xí)音頻場景的深層語義關(guān)聯(lián)。
該方法可以使用幾乎所有的數(shù)據(jù),包括噪聲或非語音內(nèi)容,而基于ASR轉(zhuǎn)錄的方法會丟棄非語音數(shù)據(jù)如環(huán)境聲或音樂,導(dǎo)致數(shù)據(jù)利用率低下,基于ASR的對齊方法在ACAV100M-Speech數(shù)據(jù)集上會損失90%潛在有用數(shù)據(jù)。
▲MiDashengLM訓(xùn)練框架
MiDashengLM的訓(xùn)練數(shù)據(jù)通過多專家分析管道生成:首先對原始音頻使用各種專家模型作語音、人聲、音樂和環(huán)境聲學(xué)的細粒度標(biāo)注,包括使用Dasheng-CED模型預(yù)測2秒粒度的聲音事件,再通過DeepSeek-R1推理大模型合成統(tǒng)一描述。
全部訓(xùn)練數(shù)據(jù)的原始標(biāo)簽在預(yù)訓(xùn)練中被棄用,只采用利用上述流程生成的新的豐富文本描述標(biāo)簽,以迫使模型學(xué)習(xí)更豐富全面的聲音信息。
其中,來自ACAV100M的開源數(shù)據(jù)集經(jīng)過上述流程重新標(biāo)注后,形成了新的ACAVCaps訓(xùn)練集和MECATBenchmark。MECATBenchmark已于近期開源,ACAVCaps數(shù)據(jù)集將在ICASSP論文評審后開放下載。
▲ACAVCaps訓(xùn)練數(shù)據(jù)集構(gòu)建流程
四、全棧開源,透明可復(fù)現(xiàn)
此次MiDashengLM訓(xùn)練數(shù)據(jù)100%來自公開數(shù)據(jù)集,涵蓋五類110萬小時資源,包括語音識別、環(huán)境聲音、音樂理解、語音副語言和問答任務(wù)等多項領(lǐng)域。
MiDashengLM完整公開了77個數(shù)據(jù)源的詳細配比,技術(shù)報告公開了從音頻編碼器預(yù)訓(xùn)練到指令微調(diào)的全流程。
據(jù)官方信息,小米已開始對XiaomiDasheng系列模型做計算效率的升級,尋求終端設(shè)備上可離線部署。
結(jié)語:小米音頻大模型再拱一卒,多模態(tài)能力拼圖日趨完善
作為影響自然語言交互體驗的關(guān)鍵技術(shù)之一,小米XiaomiDasheng系列模型此次的升級,對其提升自家設(shè)備的AI交互體驗有一定幫助,從智能家居、智能汽車到智能手機,各類產(chǎn)品均能受益。
AI多模態(tài)是當(dāng)下業(yè)界主攻的方向之一,小米重心轉(zhuǎn)向造車后,在AI大模型領(lǐng)域發(fā)聲并不多,小米未來在多模態(tài)領(lǐng)域能否帶來更多模型創(chuàng)新,值得期待。
朋友圈刷屏的經(jīng)典之作《神級插班生》,構(gòu)思巧妙,看了不下10遍!
第十章淬體,筑基“果然是神丹妙藥?。」馐锹勔宦劧加刑嵘裥涯X的功效||。”楊國民拿著丹藥驚嘆不已的說道_-?!拔覀兦啡思业娜饲楹艽蟀?!”楊天虎看著這瓶神奇的丹藥說道?!鞍?,您不能這么說,對于我們來說這是珍貴無比的,可是對于人家來說就是幾顆藥丸,他隨時可以再煉,最重要的是他對咱家小雪有意思。如果有幫助請點贊——。
神級插班生,仙術(shù)穿梭都市,美女紛至沓來!
點擊閱讀剩余精彩章節(jié)↓↓↓ “咯咯!表哥,你就吹吧!就你?你是什么樣子我還不知道嗎?”趙蕓芳對和平宇很是不看好的說道_。“怎么?你覺得你很了解表哥我?”“當(dāng)然,你以后遇到那混蛋可別亂來,那就是一惡霸,認識幾個混混就以為自己了不起了,要不是因為有個當(dāng)副市長的爹,早讓別人打死了,而且你要是再說完了。
獨家好書《神級插班生》,速速入坑,不然你要后悔了!
5《神級插班生》作者:如墨似血(點擊下方即可閱讀)精彩片段:都市流,一代仙界丹師,意外附身豪門紈绔,《神級插班生》爽文!“我確實是他侄子,但這并不跟我同樣是修真者相矛盾,程宇笑著說道-|?!澳闶切拚嬲??你怎么證明?還有,小雅跟你達成了什么合作?”“還是我來說吧,上次我唱醉酒,是程宇送我回家的到此結(jié)束了?。
來源:紅網(wǎng)
作者:同竹韻
編輯:李佳學(xué)
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。