Novas formas de equilibrar custo e confiabilidade na API Gemini

Apresentamos o Flex e o Priority: controles avançados para desenvolvedores otimizarem custos e confiabilidade por meio de uma interface única e unificada.

Seu navegador não suporta o elemento de áudio.

Hoje, estamos adicionando dois novos níveis de serviço à API do Gemini: Flex e Priority. Essas novas opções oferecem controle granular sobre custos e confiabilidade por meio de uma interface única e unificada.

À medida que a IA evolui de um simples chat para agentes autônomos complexos, os desenvolvedores geralmente precisam gerenciar dois tipos distintos de lógica:

Tarefas em segundo plano: fluxos de trabalho de alto volume, como enriquecimento de dados ou processos de “raciocínio” que não exigem respostas instantâneas.

Tarefas interativas: recursos voltados para o usuário, como chatbots e copilotos, onde é necessária alta confiabilidade.

Até agora, oferecer suporte a ambos significava dividir sua arquitetura entre o serviço síncrono padrão e a API Batch assíncrona. Flex e Priority ajudam a preencher essa lacuna. Agora você pode direcionar tarefas em segundo plano para o Flex e tarefas interativas para o Priority, ambos usando endpoints síncronos padrão. Isso elimina a complexidade do gerenciamento de tarefas assíncronas, ao mesmo tempo em que oferece os benefícios econômicos e de desempenho de níveis especializados.

Flex Inference: inovação em escala por 50% menos

O Flex Inference é nossa nova camada com custo otimizado, projetada para cargas de trabalho tolerantes à latência, sem a sobrecarga do processamento em lote.

Economia de 50% no preço: pague metade do preço da API Padrão reduzindo a criticidade de suas solicitações (tornando-as menos confiáveis e adicionando latência).

Simplicidade síncrona: Ao contrário da API Batch, o Flex é uma interface síncrona. Você usa os mesmos endpoints familiares sem precisar gerenciar arquivos de entrada/saída ou verificar a conclusão das tarefas.

Casos de uso ideais: Atualizações de CRM em segundo plano, simulações de pesquisa em grande escala e fluxos de trabalho autônomos, nos quais o modelo “navega” ou “pensa” em segundo plano.

Comece rapidamente configurando simplesmente o parâmetro service_tier em sua solicitação:

O nível Flex estará disponível para todos os níveis pagos e está disponível para solicitações das APIs GenerateContent e Interactions.

Priority Inference: Máxima confiabilidade para aplicativos críticos

O novo nível Priority Inference oferece nosso mais alto nível de garantia a um preço premium. Isso ajuda a garantir que seu tráfego mais importante não seja preterido, mesmo durante picos de uso da plataforma.

Máxima prioridade: As solicitações prioritárias recebem a mais alta prioridade, levando a maior confiabilidade, mesmo durante picos de carga.

Downgrade suave: Se o seu tráfego exceder os limites de Prioridade, as solicitações excedentes são automaticamente atendidas no nível Standard, em vez de falharem. Isso mantém seu aplicativo online e ajuda a garantir a continuidade dos negócios.

Resposta transparente: A resposta da API indica qual nível atendeu à sua solicitação, oferecendo total visibilidade do seu desempenho e faturamento.

Casos de uso ideais: bots de suporte ao cliente em tempo real, pipelines de moderação de conteúdo ao vivo e solicitações sensíveis ao tempo.

Para usar a Inferência Prioritária, basta definir o parâmetro service_tier adequadamente:

A inferência prioritária estará disponível para usuários com projetos pagos de Nível 2/3 nos endpoints da API `GenerateContent` e da API Interactions.

Acesse a documentação da API Gemini para ver a tabela de preços completa e comece a otimizar seus níveis de produção hoje mesmo. Para ver como funciona na prática, confira o livro de receitas para exemplos de código executáveis.

Novas formas de equilibrar custo e confiabilidade na API Gemini

O que esta cobertura entrega

Sobre este artigo