O novo plano da Microsoft para a “superinteligência” gira inteiramente em torno dos negócios

O novo modelo de transcrição é um passo em direção a esses objetivos, afirma Mustafa Suleyman, da Microsoft AI.

Mustafa Suleyman vem se preparando para sua nova função há muito tempo. Suleyman é o primeiro CEO de IA da Microsoft, mas depois que a empresa passou por uma reestruturação em grande escala em meados de março, ele passou algumas responsabilidades adiante e mudou o foco para a busca pela superinteligência. Embora a notícia só tenha sido divulgada no mês passado, ele disse ao The Verge que vinha se preparando para a transição há até nove meses — e, embora a renegociação do contrato da Microsoft com a OpenAI tenha sido o que oficialmente “desbloqueou a capacidade [da Microsoft] de buscar a superinteligência”, ele já estava planejando isso antes mesmo de a tinta secar.

“Este é um plano de longa data”, disse ele, acrescentando que alcançar a superinteligência era “puramente o meu foco”.

A superinteligência — juntamente com a AGI, ou inteligência artificial geral — tem uma definição vaga e mutável no setor de IA. Para Suleyman, trata-se estritamente de negócios e produtividade. “Superinteligência significa, na verdade: ‘Esses modelos são capazes de agregar valor aos produtos para os milhões de empresas que dependem de nós para fornecer modelos de linguagem de nível mundial?’”, disse Suleyman. “Esse é realmente o nosso foco. Queremos atender aos desenvolvedores, às empresas e a muitos, muitos consumidores.” As empresas de IA enfrentam uma pressão crescente para gerar mais receita, e os planos da Microsoft ecoam uma nova estratégia também na OpenAI.

A reorganização da Microsoft unificou suas equipes de empresas e de consumidores sob a bandeira da IA Copilot. Enquanto Suleyman continuará trabalhando na estratégia geral, Jacob Andreou, que anteriormente era vice-presidente corporativo de produto e crescimento da IA da Microsoft, tornou-se seu vice-presidente executivo, liderando as iniciativas de engenharia, crescimento, produto e design das equipes recém-unificadas. Essa mudança abriu espaço para que Suleyman dedicasse seu tempo à busca pela superinteligência e ao desenvolvimento de modelos de IA de ponta para a Microsoft, em um momento em que a competição entre as principais empresas de IA — e a pressão para atrair novos consumidores pagantes e clientes corporativos — está mais acirrada do que nunca.

Na quinta-feira, a Microsoft lançou um novo modelo de transcrição que espera que faça exatamente isso — e, como custa “metade do custo de GPU dos outros modelos de última geração”, segundo Suleyman, representa uma “enorme economia de custos” para a Microsoft.

A empresa apresenta o MAI-Transcribe-1 como “alargando as fronteiras do reconhecimento de voz” com sua capacidade de transcrever reuniões, legendar vídeos e analisar interações em centrais de atendimento em 25 idiomas. As postagens no blog da Microsoft anunciando o modelo afirmam que ele foi desenvolvido para condições de gravação “desafiadoras”, incluindo ruído de fundo, áudio de baixa qualidade e fala sobreposta, treinado com uma combinação de transcrições “curadas por humanos” e transcritas por máquinas. Suleyman disse que as gravações de origem são uma mistura de dados de cabines de som controladas e de prestadores de serviços encarregados de se gravarem em meio a ruídos de fundo, desde ruas movimentadas até crianças correndo, além de “vastas quantidades de dados da web aberta”.

Juntamente com os modelos existentes de geração de voz e imagem, MAI-Voice-1 e MAI-Image-2, o novo modelo de transcrição já está disponível no Microsoft Foundry e como parte do novo Microsoft AI Playground. É a primeira vez que esses modelos estão “amplamente disponíveis para uso comercial”, segundo a Microsoft. O MAI-Transcribe-1 suporta arquivos de áudio nos formatos MP3, WAV e FLAC.

Suleyman atribui o desempenho do novo modelo nos testes a uma equipe pequena e focada de 10 pessoas. Ele diz que a equipe de modelagem foi “libertada de qualquer burocracia”, pois conta com uma equipe de apoio responsável por gerenciar fornecedores, encontrar dados para download e muito mais. A Microsoft empregou uma estratégia semelhante para geração de voz e imagem, e outras empresas tomaram medidas semelhantes — Meta, Amazon e Google estão experimentando achatar suas organizações, e a Anthropic afirmou que também está experimentando dar liberdade total a pequenas equipes de poucos desenvolvedores com certos níveis de computação para ver o que elas podem alcançar.

O novo modelo de transcrição faz parte da meta de Suleyman de oferecer uma IA “centrada no ser humano” (uma variação do termo da moda preferido da Microsoft, “superinteligência humanista”) que seja útil para a pessoa comum. “Todos terão um assistente de IA no bolso que seja verdadeiramente de classe mundial, responsável perante eles, do lado deles, alinhado aos seus interesses e trabalhando em seu nome”, disse ele.

Dia da Mentira de 2026: as melhores e mais constrangedoras pegadinhas

Vazamento do código Claude expõe um “animal de estimação” no estilo Tamagotchi e um agente sempre ativo

O projeto da base lunar Artemis é juridicamente duvidoso

O novo plano da Microsoft para a “superinteligência” gira inteiramente em torno dos negócios

O que esta cobertura entrega

Sobre este artigo