Programação

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

Publicado porRedacao AIDaily
5 min de leitura
Autor na fonte original: Max Gubin

Gemini logo next to the text "3.1 Flash TTS", all over colored dots

Compartilhar:
Gemini 3.1 Flash TTS: the next generation of expressive AI speech

Our newest audio model introduces granular audio tags that give you precise control to direct AI speech for expressive audio generation.

Gemini 3.1 Flash TTS is here, giving you improved AI speech quality and control. You can now use audio tags to adjust vocal style and pacing in over 70 languages. Test it out in Google AI Studio, Vertex AI, and Google Vids, and know that all audio is watermarked with SynthID to prevent misinformation.

Gemini 3.1 Flash TTS is here, giving you improved AI speech quality and control. You can now use audio tags to adjust vocal style and pacing in over 70 languages. Test it out in Google AI Studio, Vertex AI, and Google Vids, and know that all audio is watermarked with SynthID to prevent misinformation.

"Gemini 3.1 Flash TTS" is a new AI speech model with better control, expressiveness, and quality. This model has improved speech quality, making it sound more natural than previous versions. Audio tags let you control vocal style, pace, and delivery using natural language commands. Developers can use Google AI Studio to fine-tune voices and export settings for consistent use. Gemini 3.1 Flash TTS supports 70+ languages and uses SynthID watermarking to identify AI-generated audio.

"Gemini 3.1 Flash TTS" is a new AI speech model with better control, expressiveness, and quality.

This model has improved speech quality, making it sound more natural than previous versions.

Audio tags let you control vocal style, pace, and delivery using natural language commands.

Developers can use Google AI Studio to fine-tune voices and export settings for consistent use.

Gemini 3.1 Flash TTS supports 70+ languages and uses SynthID watermarking to identify AI-generated audio.

Gemini 3.1 Flash TTS is a new AI that makes computer speech sound more real. It lets people change how the AI talks by using special commands in the text. This AI can speak in over 70 languages and adds a hidden watermark to the audio. This helps people know it's AI-generated and not a real person.

Gemini 3.1 Flash TTS is a new AI that makes computer speech sound more real. It lets people change how the AI talks by using special commands in the text. This AI can speak in over 70 languages and adds a hidden watermark to the audio. This helps people know it's AI-generated and not a real person.

Your browser does not support the audio element.

Today, we’re introducing Gemini 3.1 Flash TTS, the latest text-to-speech model that delivers improved controllability, expressivity and quality — empowering developers, enterprises and everyday users to build the next generation of AI-speech applications.

Starting today, 3.1 Flash TTS is rolling out:

For developers in preview via the Gemini API and Google AI Studio

Improved speech quality and controllability

We’ve improved the overall speech quality of Gemini 3.1 Flash TTS, making it our most natural and expressive model to date. On the Artificial Analysis TTS leaderboard , a benchmark that captures thousands of blind human preferences, 3.1 Flash TTS achieved an impressive Elo score of 1,211.

Artificial Analysis has also positioned Gemini 3.1 Flash TTS within its “ most attractive quadrant ” for its ideal blend of high-quality speech generation and low cost. The model stands out further with native multi-speaker dialogue, support for 70+ languages, and granular creative control via natural language.

New audio tags for more expressive speech generation

3.1 Flash TTS also introduces audio tags — an intuitive way to control vocal style, pace and delivery. By embedding natural language commands directly into the text input, you can steer AI-speech output with improved levels of granularity.

You can start experimenting with these audio tags along with other updates to the developer experience in Google AI Studio with configurable controls that place the developer in the “director’s chair”:

Scene direction: Set the stage by defining the environment and providing specific dialogue instructions. This world-building context helps characters remain “in-character” and react to one another naturally across multiple turns.

Speaker-level specificity: Cast characters using unique Audio Profiles, then specify Director’s Notes to toggle pace, tone and accent. Using inline tags , speakers can pivot from these high-level settings to change expression mid-sentence.

Seamless export: Once the performance is perfected, these exact parameters can be exported as Gemini API code to ensure consistent, recognizable voices across various projects and platforms.

With these new configurations, developers can enhance precision for specific scenarios, creating memorable characters and immersive audio experiences.

Get started with high-fidelity speech generation in the Google AI Studio Playground .

Gemini 3.1 Flash TTS delivers high-fidelity speech and more precise control across more than 70 languages. These core optimizations bring advanced style, pacing and accent control to major markets — helping developers create localized, expressive speech experiences for users at global scale.

Early developer and enterprise testers are already seeing the impact of 3.1 Flash TTS, highlighting its impressive controllability and expressivity. They’ve told us how audio tags provide a new level of creative precision, transforming simple text into a high-fidelity vocal performance.

All audio generated by Gemini 3.1 Flash TTS is watermarked with SynthID. This imperceptible watermark is interwoven directly into the audio output, allowing the reliable detection of AI-generated content to help prevent misinformation. For more information on our approach to safety and responsibility, you can review the model card .

Check your inbox to confirm your subscription.

You are already subscribed to our newsletter.

You can also subscribe with a different email address .

Pontos-chave

  • Gemini 3.1 Flash TTS permite personalização avançada da fala em mais de 70 idiomas, atendendo à diversidade cultural do Brasil.
  • A marca d'água SynthID ajuda a combater a desinformação, promovendo transparência no uso de áudio gerado por IA.
  • Comandos em linguagem natural para controle de fala abrem novas oportunidades para desenvolvedores e criadores de conteúdo.

Análise editorial

A introdução do Gemini 3.1 Flash TTS representa um avanço significativo na tecnologia de conversão de texto em fala, especialmente no contexto do Brasil, onde a demanda por soluções de IA expressivas e acessíveis está crescendo. Com a capacidade de ajustar o estilo vocal e o ritmo em mais de 70 idiomas, essa ferramenta pode facilitar a criação de conteúdos mais personalizados e envolventes, atendendo a um público diversificado. Isso é particularmente relevante em um país com uma rica diversidade linguística e cultural, onde a personalização da comunicação pode aumentar a eficácia das interações digitais.

Além disso, a implementação da marca d'água SynthID para identificar áudio gerado por IA é um passo importante para combater a desinformação, um problema crescente no Brasil e em todo o mundo. A transparência na origem do conteúdo gerado por IA é crucial, especialmente em um cenário onde a manipulação de informações pode ter consequências graves. Essa funcionalidade não apenas protege os consumidores, mas também estabelece um padrão ético que pode influenciar outros desenvolvedores de tecnologia no país.

O uso de comandos em linguagem natural para controlar a fala da IA também abre novas possibilidades para desenvolvedores e criadores de conteúdo. A capacidade de personalizar a entrega de mensagens pode ser aplicada em diversas áreas, desde educação até marketing, permitindo que as empresas se conectem de maneira mais autêntica com seus clientes. À medida que mais empresas brasileiras adotam soluções de IA, a integração de ferramentas como o Gemini 3.1 Flash TTS pode se tornar um diferencial competitivo.

Por fim, é importante observar como o Gemini 3.1 Flash TTS será recebido pelo mercado e quais inovações adicionais poderão surgir a partir dele. A evolução contínua das tecnologias de IA, especialmente em áreas como a fala e a interação, pode levar a um aumento na adoção de soluções automatizadas em setores que vão desde atendimento ao cliente até entretenimento. O Brasil, com seu ecossistema tecnológico em expansão, pode se beneficiar enormemente dessas inovações, mas também deve estar atento às questões éticas e de privacidade que surgem com o uso crescente de IA.

O que esta cobertura entrega

  • Atribuicao clara de fonte com link para a publicacao original.
  • Enquadramento editorial sobre relevancia, impacto e proximos desdobramentos.
  • Revisao de legibilidade, contexto e duplicacao antes da publicacao.

Fonte original:

Google AI Blog

Sobre este artigo

Este artigo foi curado e publicado pelo AIDaily como parte da nossa cobertura editorial sobre desenvolvimentos em inteligência artificial. O conteúdo é baseado na fonte original citada abaixo, enriquecido com contexto e análise editorial. Ferramentas automatizadas podem auxiliar tradução e estruturação inicial, mas a decisão de publicar, a revisão factual e o enquadramento de contexto seguem responsabilidade editorial.

Saiba mais sobre nosso processo editorial