A Microsoft enfrenta seus concorrentes em IA com três novos modelos fundamentais

A Microsoft AI, laboratório de pesquisa da gigante da tecnologia, anunciou na quinta-feira o lançamento de três modelos fundamentais de IA capazes de gerar texto, voz e imagens.

O lançamento sinaliza o esforço contínuo da Microsoft para desenvolver seu próprio conjunto de modelos de IA multimodal — e competir com laboratórios de IA rivais —, mesmo permanecendo vinculada à OpenAI.

O MAI-Transcribe-1 transcreve fala em 25 idiomas diferentes para texto e é 2,5 vezes mais rápido do que a oferta Azure Fast da Microsoft, de acordo com um comunicado de imprensa da empresa. O MAI-Voice-1 é um modelo de geração de áudio. Esse modelo de voz permite que os usuários gerem 60 segundos de áudio em um segundo e criem uma voz personalizada. O MAI-Image-2 é um modelo de geração de vídeo.

O MAI-Image-2 foi lançado originalmente no MAI Playground, um novo software de teste de modelos de linguagem de grande porte, em 19 de março. Agora, todos os três modelos estão sendo lançados no Microsoft Foundry, e os modelos de transcrição e voz também estão disponíveis no MAI Playground.

Os modelos foram desenvolvidos pela equipe MAI Superintelligence da Microsoft, uma equipe de pesquisa em IA liderada por Mustafa Suleyman, CEO da Microsoft AI, que foi formada e anunciada em novembro de 2025.

“Na Microsoft AI, estamos construindo uma IA humanista. Temos uma visão distinta ao criar nossos modelos de IA — colocando os seres humanos no centro, otimizando para a forma como as pessoas realmente se comunicam e treinando para uso prático”, escreveu Suleyman na postagem do blog. “Em breve, vocês verão mais modelos nossos no Foundry e diretamente nos produtos e experiências da Microsoft.”

Em um mercado de LLM cada vez mais concorrido, a MAI espera que um ponto forte desses modelos seja o fato de serem mais baratos do que os do Google e da OpenAI, escreveu a empresa na postagem do blog.

Disrupt 2026: O ecossistema de tecnologia, tudo em um só lugar

Economize até US$ 300 ou 30% no TechCrunch Founder Summit

O MAI-Transcribe-1 custa a partir de US$ 0,36 por hora. O MAI-Voice-1 custa a partir de US$ 22 por 1 milhão de caracteres, e o MAI-Image-2 custa a partir de US$ 5 por 1 milhão de tokens para entrada de texto e US$ 33 por 1 milhão de tokens para saída de imagem.

Apesar de lançar seus próprios modelos, Suleyman reafirmou o compromisso da Microsoft com sua parceria com a OpenAI em uma entrevista à VentureBeat — embora uma recente renegociação dessa parceria tenha permitido à Microsoft realmente prosseguir com essa pesquisa em superinteligência, disse Suleyman ao The Verge.

A Microsoft investiu mais de US$ 13 bilhões no laboratório de pesquisa em IA e hospeda seus modelos em seus diversos produtos por meio de uma parceria plurianual. A Microsoft adota a mesma postura em relação aos chips; ela tanto produz os seus próprios quanto compra de fornecedores externos.

Becca é redatora sênior da TechCrunch e cobre tendências de capital de risco e startups. Anteriormente, ela cobriu a mesma área para a Forbes e o Venture Capital Journal.

Você pode entrar em contato ou confirmar o contato da Becca enviando um e-mail para rebecca.szkutak@techcrunch.com.

O StrictlyVC dá início ao ano em São Francisco. Participe de conversas informais e sem filtros com líderes do setor, insights privilegiados de investidores de capital de risco e conexões de alto valor que realmente fazem a diferença. Os ingressos são limitados.

A Anthropic retirou milhares de repositórios do GitHub na tentativa de remover seu código-fonte vazado — uma ação que a empresa afirma ter sido um acidente. Tim Fernholz

A Anthropic removeu milhares de repositórios do GitHub na tentativa de retirar seu código-fonte vazado — uma ação que a empresa afirma ter sido um acidente

A Anthropic está passando por um mês difícil Connie Loizos

O Google agora permite que usuários nos EUA alterem seu endereço do Gmail Ivan Mehta

O Google agora permite que usuários nos EUA alterem seu endereço do Gmail

Por que a OpenAI realmente desativou o Sora Connie Loizos

O Pixel 10a não tem saliência na câmera, e isso é ótimo Ivan Mehta

O Pixel 10a não tem saliência na câmera, e isso é ótimo

A popularidade do Claude, da Anthropic, entre os consumidores pagantes está disparando Julie Bort

A popularidade do Claude, da Anthropic, entre os consumidores pagantes está disparando

Vamos dar uma olhada na tecnologia retrô que está voltando Lauren Forristal

Vamos dar uma olhada na tecnologia retrô que está voltando

A Microsoft enfrenta seus concorrentes em IA com três novos modelos fundamentais

O que esta cobertura entrega

Sobre este artigo