IT之家7月16日消息,MistralAI當(dāng)?shù)貢r間昨日公布了其Voxtral語音理解模型。該系列模型以開源形式推出,可以更低價格提供領(lǐng)先的低錯誤率表現(xiàn),支持真實世界的語音智能生產(chǎn)應(yīng)用。
Voxtral系列模型由MistralSmall3.1派生而來,包括面向生產(chǎn)應(yīng)用的24B版本VoxtralSmall和適用于本地/邊緣部署的3B版本VoxtralMini,此外還有僅具備語音轉(zhuǎn)文字功能的VoxtralMiniTranscribe。
該模型支持32KToken的上下文長度,可處理30分鐘音頻轉(zhuǎn)錄或40分鐘音頻理解,內(nèi)置生成相關(guān)問題、結(jié)構(gòu)化摘要的能力,支持英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等印歐諸語言。
MistralAI宣稱VoxtralMiniTranscribe在成本敏感用例中性能優(yōu)于OpenAIWhisper,而價格不到后者的一半;而在高級用例方面,VoxtralSmall的性能與本領(lǐng)域頂尖模型ElevenLabsScribe接近,價格也不到一半。