IT之家7月16日消息,MistralAI當(dāng)?shù)貢r(shí)間昨日公布了其Voxtral語(yǔ)音理解模型。該系列模型以開(kāi)源形式推出,可以更低價(jià)格提供領(lǐng)先的低錯(cuò)誤率表現(xiàn),支持真實(shí)世界的語(yǔ)音智能生產(chǎn)應(yīng)用。
Voxtral系列模型由MistralSmall3.1派生而來(lái),包括面向生產(chǎn)應(yīng)用的24B版本VoxtralSmall和適用于本地/邊緣部署的3B版本VoxtralMini,此外還有僅具備語(yǔ)音轉(zhuǎn)文字功能的VoxtralMiniTranscribe。
該模型支持32KToken的上下文長(zhǎng)度,可處理30分鐘音頻轉(zhuǎn)錄或40分鐘音頻理解,內(nèi)置生成相關(guān)問(wèn)題、結(jié)構(gòu)化摘要的能力,支持英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、葡萄牙語(yǔ)、印地語(yǔ)、德語(yǔ)、荷蘭語(yǔ)、意大利語(yǔ)等印歐諸語(yǔ)言。
MistralAI宣稱VoxtralMiniTranscribe在成本敏感用例中性能優(yōu)于OpenAIWhisper,而價(jià)格不到后者的一半;而在高級(jí)用例方面,VoxtralSmall的性能與本領(lǐng)域頂尖模型ElevenLabsScribe接近,價(jià)格也不到一半。