Novas formas de equilibrar custo e confiabilidade na API Gemini
API Gemini Dials

Apresentamos o Flex e o Priority: controles avançados para desenvolvedores otimizarem custos e confiabilidade por meio de uma interface única e unificada.
Seu navegador não suporta o elemento de áudio.
Hoje, estamos adicionando dois novos níveis de serviço à API do Gemini: Flex e Priority. Essas novas opções oferecem controle granular sobre custos e confiabilidade por meio de uma interface única e unificada.
À medida que a IA evolui de um simples chat para agentes autônomos complexos, os desenvolvedores geralmente precisam gerenciar dois tipos distintos de lógica:
Tarefas em segundo plano: fluxos de trabalho de alto volume, como enriquecimento de dados ou processos de “raciocínio” que não exigem respostas instantâneas.
Tarefas interativas: recursos voltados para o usuário, como chatbots e copilotos, onde é necessária alta confiabilidade.
Até agora, oferecer suporte a ambos significava dividir sua arquitetura entre o serviço síncrono padrão e a API Batch assíncrona. Flex e Priority ajudam a preencher essa lacuna. Agora você pode direcionar tarefas em segundo plano para o Flex e tarefas interativas para o Priority, ambos usando endpoints síncronos padrão. Isso elimina a complexidade do gerenciamento de tarefas assíncronas, ao mesmo tempo em que oferece os benefícios econômicos e de desempenho de níveis especializados.
Flex Inference: inovação em escala por 50% menos
O Flex Inference é nossa nova camada com custo otimizado, projetada para cargas de trabalho tolerantes à latência, sem a sobrecarga do processamento em lote.
Economia de 50% no preço: pague metade do preço da API Padrão reduzindo a criticidade de suas solicitações (tornando-as menos confiáveis e adicionando latência).
Simplicidade síncrona: Ao contrário da API Batch, o Flex é uma interface síncrona. Você usa os mesmos endpoints familiares sem precisar gerenciar arquivos de entrada/saída ou verificar a conclusão das tarefas.
Casos de uso ideais: Atualizações de CRM em segundo plano, simulações de pesquisa em grande escala e fluxos de trabalho autônomos, nos quais o modelo “navega” ou “pensa” em segundo plano.
Comece rapidamente configurando simplesmente o parâmetro service_tier em sua solicitação:
O nível Flex estará disponível para todos os níveis pagos e está disponível para solicitações das APIs GenerateContent e Interactions.
Priority Inference: Máxima confiabilidade para aplicativos críticos
O novo nível Priority Inference oferece nosso mais alto nível de garantia a um preço premium. Isso ajuda a garantir que seu tráfego mais importante não seja preterido, mesmo durante picos de uso da plataforma.
Máxima prioridade: As solicitações prioritárias recebem a mais alta prioridade, levando a maior confiabilidade, mesmo durante picos de carga.
Downgrade suave: Se o seu tráfego exceder os limites de Prioridade, as solicitações excedentes são automaticamente atendidas no nível Standard, em vez de falharem. Isso mantém seu aplicativo online e ajuda a garantir a continuidade dos negócios.
Resposta transparente: A resposta da API indica qual nível atendeu à sua solicitação, oferecendo total visibilidade do seu desempenho e faturamento.
Casos de uso ideais: bots de suporte ao cliente em tempo real, pipelines de moderação de conteúdo ao vivo e solicitações sensíveis ao tempo.
Para usar a Inferência Prioritária, basta definir o parâmetro service_tier adequadamente:
A inferência prioritária estará disponível para usuários com projetos pagos de Nível 2/3 nos endpoints da API `GenerateContent` e da API Interactions.
Acesse a documentação da API Gemini para ver a tabela de preços completa e comece a otimizar seus níveis de produção hoje mesmo. Para ver como funciona na prática, confira o livro de receitas para exemplos de código executáveis.
O que esta cobertura entrega
- Atribuicao clara de fonte com link para a publicacao original.
- Enquadramento editorial sobre relevancia, impacto e proximos desdobramentos.
- Revisao de legibilidade, contexto e duplicacao antes da publicacao.
Fonte original:
Google AI BlogSobre este artigo
Este artigo foi curado e publicado pelo AIDaily como parte da nossa cobertura editorial sobre desenvolvimentos em inteligência artificial. O conteúdo é baseado na fonte original citada abaixo, enriquecido com contexto e análise editorial. Ferramentas automatizadas podem auxiliar tradução e estruturação inicial, mas a decisão de publicar, a revisão factual e o enquadramento de contexto seguem responsabilidade editorial.
Saiba mais sobre nosso processo editorial