IT之家8月4日消息,小米自研聲音理解大模型MiDashengLM-7B今日正式發(fā)布,并全量開源。
據(jù)小米官方介紹,MiDashengLM-7B速度精度上實現(xiàn)雙突破:單樣本首Token延遲僅為同類模型1/4、同顯存下并發(fā)超20倍,在22個公開評測集上刷新多模態(tài)大模型最好成績(SOTA)。
MiDashengLM-7B基于XiaomiDasheng作為音頻編碼器和Qwen2.5-Omni-7BThinker作為自回歸解碼器,通過創(chuàng)新的通用音頻描述訓(xùn)練策略,實現(xiàn)了對語音、環(huán)境聲音和音樂的統(tǒng)一理解。
2024年,小米發(fā)布的XiaomiDasheng聲音基座模型在國際上首次突破AudioSet50+mAP,在HEARBenchmark環(huán)境聲、語音、音樂三大領(lǐng)域建立領(lǐng)先優(yōu)勢并保持至今。
XiaomiDasheng在小米的智能家居和汽車座艙等場景有超過30項落地應(yīng)用。行業(yè)首發(fā)的車外喚醒防御、手機(jī)音箱全天候監(jiān)控異常聲音、“打個響指”環(huán)境音關(guān)聯(lián)IoT控制能力,以及小米YU7上搭載的增強(qiáng)哨兵模式劃車檢測等,背后都有XiaomiDasheng作為核心算法的賦能。
MiDashengLM的訓(xùn)練數(shù)據(jù)由100%的公開數(shù)據(jù)構(gòu)成,模型以寬松的ApacheLicense2.0發(fā)布,同時支持學(xué)術(shù)和商業(yè)應(yīng)用。
小米表示,不同于Qwen2.5-Omni等未公開訓(xùn)練數(shù)據(jù)細(xì)節(jié)的模型,MiDashengLM完整公開了77個數(shù)據(jù)源的詳細(xì)配比,技術(shù)報告中詳細(xì)介紹了從音頻編碼器預(yù)訓(xùn)練到指令微調(diào)的全流程。
作為小米“人車家全生態(tài)”戰(zhàn)略的關(guān)鍵技術(shù),MiDashengLM通過統(tǒng)一理解語音、環(huán)境聲與音樂的跨領(lǐng)域能力,不僅能聽懂用戶周圍發(fā)生了什么事情,還能分析發(fā)現(xiàn)這些事情的隱藏含義,提高用戶場景理解的泛化性。
基于MiDashengLM的模型通過自然語言和用戶交互,為用戶提更人性化的溝通和反饋,比如在用戶練習(xí)唱歌或練習(xí)外語時提供發(fā)音反饋并制定針對性提升方案,又比如在用戶駕駛車輛時實時對用戶關(guān)于環(huán)境聲音的提問做出解答。
MiDashengLM以XiaomiDasheng音頻編碼器為核心組件,是XiaomiDasheng系列模型的重要升級。在當(dāng)前版本的基礎(chǔ)上,小米已著手對該模型做計算效率的進(jìn)一步升級,尋求終端設(shè)備上可離線部署,并完善基于用戶自然語言提示的聲音編輯等更全面的功能。
IT之家附MiDashengLM開源地址:
GitHub主頁:https://github.com/xiaomi-research/dasheng-lm技術(shù)報告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report模型參數(shù)(HuggingFace):https://huggingface.co/mispeech/midashenglm-7b模型參數(shù)(魔搭社區(qū)):https://modelscope.cn/models/midasheng/midashenglm-7b網(wǎng)頁Demohttps://xiaomi-research.github.io/dasheng-lm交互Demohttps://huggingface.co/spaces/mispeech/MiDashengLM