A Mistral lança um novo modelo de código aberto para geração de fala

A empresa francesa de IA Mistral lançou na quinta-feira um novo modelo de conversão de texto em fala de código aberto que pode ser utilizado por assistentes de voz com IA ou em casos de uso corporativo, como atendimento ao cliente. O modelo, que permite às empresas criar agentes de voz para vendas e interação com o cliente, coloca a Mistral em concorrência direta com empresas como a ElevenLabs, a Deepgram e a OpenAI.

O novo modelo, chamado Voxtral TTS, suporta nove idiomas, incluindo inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe.

“Nossos clientes têm solicitado um modelo de fala. Por isso, criamos um modelo de fala de tamanho reduzido que cabe em um smartwatch, smartphone, laptop ou outros dispositivos de ponta. Seu custo é uma fração do preço de qualquer outro produto no mercado, mas oferece desempenho de ponta”, disse Pierre Stock, vice-presidente de operações científicas da Mistral AI, ao TechCrunch durante uma entrevista por telefone.

A Mistral afirmou que o novo modelo pode adaptar uma voz personalizada com uma amostra de menos de cinco segundos e capturar características como sotaques sutis, inflexões, entonações e irregularidades no fluxo da fala. O modelo, baseado no Mistral 3B, pode alternar entre idiomas facilmente sem perder as características da voz, o que é útil para casos de uso como dublagem ou tradução em tempo real. Stock disse que a empresa queria que o modelo soasse humano e não robótico.

O modelo foi desenvolvido para desempenho em tempo real, de acordo com a empresa. Ele tem um tempo até o primeiro áudio (TTFA) — uma medida de quando o modelo começa a “falar” após receber a entrada — de 90 ms para uma amostra de 10 segundos com 500 caracteres. O modelo também tem um fator de tempo real (RTF) de 6x, o que significa que ele pode renderizar um clipe de 10 segundos em aproximadamente 1,6 segundos.

No início deste ano, a Mistral lançou dois modelos de transcrição, um para processamento de grandes lotes e outro para casos de uso em tempo real com baixa latência. Com o novo modelo de fala, a empresa provavelmente visa fornecer um conjunto completo de produtos de voz para empresas.

“Planejamos ter uma plataforma de ponta a ponta capaz de lidar com fluxos multimodais de entrada, incluindo áudio, texto e imagem, e também de saída. A principal vantagem disso é que você obtém muito mais informações com um sistema agente de ponta a ponta que suporta áudio como entrada ou saída”, disse Stock.

Disrupt 2026: O ecossistema de tecnologia, tudo em uma sala

Economize até US$ 300 ou 30% no TechCrunch Founder Summit

O posicionamento da Mistral é que seu código aberto e sua capacidade de personalização ajudarão as empresas a adotar seus modelos de voz em detrimento dos concorrentes, já que elas podem ajustá-los da maneira que desejarem.

Ivan cobre os desenvolvimentos globais em tecnologia de consumo no TechCrunch. Ele mora na Índia e já trabalhou em publicações como o Huffington Post e o The Next Web.

Você pode entrar em contato ou confirmar a abordagem de Ivan enviando um e-mail para im@ivanmehta.com ou por mensagem criptografada no Signal, pelo ID ivan.42.

O StrictlyVC dá início ao ano em São Francisco. Participe de conversas informais e sem filtros com líderes do setor, insights privilegiados de investidores de capital de risco e conexões de alto valor que realmente fazem a diferença. Os ingressos são limitados.

A lacuna de habilidades em IA está aqui, diz empresa de IA, e usuários avançados estão saindo na frente Rebecca Bellan

A lacuna de habilidades em IA está aqui, diz empresa de IA, e usuários avançados estão saindo na frente

Google revela TurboQuant, um novo algoritmo de compressão de memória para IA — e sim, a internet está chamando-o de ‘Pied Piper’ Sarah Perez

Google revela o TurboQuant, um novo algoritmo de compressão de memória de IA — e sim, a internet está chamando-o de ‘Pied Piper’

Mulher do Kentucky rejeita oferta de US$ 26 milhões para transformar sua fazenda em um data center Graham Starr

Mulher do Kentucky rejeita oferta de US$ 26 milhões para transformar sua fazenda em um data center

Alguém vazou publicamente um kit de exploração capaz de hackear milhões de iPhones Lorenzo Franceschi-Bicchierai Zack Whittaker

Alguém vazou publicamente um kit de exploração capaz de hackear milhões de iPhones

A Cursor admite que seu novo modelo de codificação foi construído com base no Kimi da Moonshot AI Anthony Ha

A Cursor admite que seu novo modelo de codificação foi construído com base no Kimi da Moonshot AI

Delve é acusada de enganar clientes com “conformidade falsa” Anthony Ha

Delve é acusada de enganar clientes com “conformidade falsa”

Um tour exclusivo pelo laboratório Trainium da Amazon, o chip que conquistou a Anthropic, a OpenAI e até mesmo a Apple Julie Bort

Um tour exclusivo pelo laboratório Trainium da Amazon, o chip que conquistou a Anthropic, a OpenAI e até mesmo a Apple

A Mistral lança um novo modelo de código aberto para geração de fala

O que esta cobertura entrega

Sobre este artigo