Os benchmarks de IA estão ultrapassados. Eis o que precisamos em vez disso.

Há décadas, a inteligência artificial vem sendo avaliada com base na questão de saber se as máquinas superam os seres humanos. Do xadrez à matemática avançada, da programação à redação de ensaios, o desempenho dos modelos e aplicações de IA é comparado ao de seres humanos individuais que realizam essas tarefas. Esse enfoque é sedutor: uma comparação entre IA e seres humanos em problemas isolados, com respostas claras de certo ou errado, é fácil de padronizar, comparar e otimizar. Isso gera rankings e manchetes. Mas há um problema: a IA quase nunca é usada da maneira como é avaliada. Embora pesquisadores e a indústria tenham começado a melhorar as avaliações, indo além de testes estáticos para métodos de avaliação mais dinâmicos, essas inovações resolvem apenas parte da questão. Isso porque elas ainda avaliam o desempenho da IA fora das equipes humanas e dos fluxos de trabalho organizacionais onde seu desempenho no mundo real acaba se manifestando. Enquanto a IA é avaliada no nível da tarefa em um vácuo, ela é usada em ambientes confusos e complexos, onde geralmente interage com mais de uma pessoa. Seu desempenho (ou a falta dele) só se revela ao longo de períodos prolongados de uso. Esse desalinhamento nos leva a interpretar erroneamente as capacidades da IA, ignorar riscos sistêmicos e avaliar mal suas consequências econômicas e sociais. Para mitigar isso, é hora de mudar de métodos restritos para benchmarks que avaliem o desempenho dos sistemas de IA em horizontes de tempo mais longos dentro de equipes humanas, fluxos de trabalho e organizações. Estudo a implantação da IA no mundo real desde 2022 em pequenas empresas e organizações das áreas de saúde, humanitária, sem fins lucrativos e de ensino superior no Reino Unido, nos Estados Unidos e na Ásia, bem como nos principais ecossistemas de design de IA em Londres e no Vale do Silício. Proponho uma abordagem diferente, que chamo de benchmarks HAIC — Avaliação Específica ao Contexto Humano-IA. O que acontece quando a IA falha Para governos e empresas, as pontuações dos benchmarks de IA parecem mais objetivas do que as alegações dos fornecedores. Elas são uma parte crítica para determinar se um modelo ou aplicativo de IA é “bom o suficiente” para implantação no mundo real. Imagine um modelo de IA que atinge pontuações técnicas impressionantes nos benchmarks mais avançados — 98% de precisão, velocidade inovadora, resultados convincentes. Com base nesses resultados, as organizações podem decidir adotar o modelo, comprometendo recursos financeiros e técnicos consideráveis para comprá-lo e integrá-lo. Mas então, uma vez adotado, a diferença entre o benchmark e o desempenho no mundo real rapidamente se torna visível. Por exemplo, considere a gama de modelos de IA aprovados pela FDA que podem ler exames médicos com mais rapidez e precisão do que um radiologista especialista. Nas unidades de radiologia de hospitais desde o coração da Califórnia até os arredores de Londres, testemunhei equipes usando aplicativos de IA em radiologia altamente bem classificados. Repetidamente, elas levavam tempo extra para interpretar os resultados da IA de acordo com os padrões de relatórios específicos do hospital e os requisitos regulatórios específicos do país. O que parecia ser uma ferramenta de IA para aumentar a produtividade quando testada isoladamente introduziu atrasos na prática. Logo ficou claro que os testes de benchmark nos quais os modelos de IA médica são avaliados não capturam como as decisões médicas são realmente tomadas. Os hospitais contam com equipes multidisciplinares — radiologistas, oncologistas, físicos, enfermeiros — que analisam os pacientes em conjunto. O planejamento do tratamento raramente depende de uma decisão estática; ele evolui à medida que novas informações surgem ao longo de dias ou semanas. As decisões geralmente surgem por meio de debates construtivos e compromissos entre padrões profissionais, preferências dos pacientes e o objetivo comum de bem-estar a longo prazo dos pacientes. Não é de se admirar que mesmo modelos de IA com pontuação elevada tenham dificuldade em entregar o desempenho prometido quando se deparam com os processos complexos e colaborativos do atendimento clínico real. O mesmo padrão surge em minha pesquisa em outros setores: quando incorporados a ambientes de trabalho do mundo real, mesmo modelos de IA que apresentam desempenho brilhante em testes padronizados não cumprem o prometido. Quando pontuações elevadas em benchmarks não se traduzem em desempenho no mundo real, até mesmo a IA com as melhores pontuações é logo abandonada no que chamo de “cemitério da IA”. Os custos são significativos: tempo, esforço e dinheiro acabam sendo desperdiçados. E, com o tempo, experiências repetidas como essa corroem a confiança organizacional na IA e — em contextos críticos como a saúde — podem corroer também a confiança do público em geral na tecnologia. Quando os benchmarks atuais fornecem apenas um sinal parcial e potencialmente enganoso da prontidão de um modelo de IA para uso no mundo real, isso cria pontos cegos regulatórios: a supervisão é moldada por métricas que não refletem a realidade. Isso também deixa as organizações e os governos arcando com os riscos de testar a IA em ambientes sensíveis do mundo real, muitas vezes com recursos e suporte limitados. Como criar testes melhores Para preencher a lacuna entre o benchmark e o desempenho no mundo real, devemos prestar atenção às condições reais em que os modelos de IA serão usados. As questões críticas: a IA pode funcionar como um participante produtivo dentro de equipes humanas? E ela pode gerar valor coletivo e sustentável? Por meio de minha pesquisa sobre a implantação de IA em vários setores, tenho visto várias organizações já se movendo — de forma deliberada e experimental — em direção aos benchmarks HAIC que defendo. Os benchmarks HAIC reformulam a avaliação comparativa atual de quatro maneiras: 1. Do desempenho individual e em tarefas únicas para o desempenho da equipe e do fluxo de trabalho (mudando a unidade de análise) 2. De testes pontuais com respostas certas/erradas para impactos de longo prazo (ampliando o horizonte temporal) 3. Da correção e velocidade para resultados organizacionais, qualidade da coordenação e detectabilidade de erros (ampliando as medidas de resultados) 4. De resultados isolados para consequências a montante e a jusante (efeitos no sistema) Nas organizações onde essa abordagem surgiu e começou a ser aplicada, o primeiro passo é mudar a unidade de análise. Por exemplo, em um sistema hospitalar do Reino Unido no período de 2021 a 2024, a questão se expandiu de “se uma aplicação de IA médica melhora a precisão do diagnóstico” para “como a presença da IA nas equipes multidisciplinares do hospital afeta não apenas a precisão, mas também a coordenação e a deliberação”. O hospital avaliou especificamente a coordenação e a deliberação em equipes humanas que usavam e não usavam IA. Várias partes interessadas (dentro e fora do hospital) decidiram sobre métricas como a forma como a IA influencia o raciocínio coletivo, se ela traz à tona considerações que haviam sido ignoradas, se fortalece ou enfraquece a coordenação e se altera práticas estabelecidas de risco e conformidade. Essa mudança é fundamental. Ela é muito importante em contextos de alto risco, onde os efeitos no nível do sistema importam mais do que a precisão no nível da tarefa. Também é importante para a economia. Isso pode ajudar a recalibrar expectativas exageradas de ganhos generalizados de produtividade que, até agora, se baseiam em grande parte na promessa de melhorar o desempenho em tarefas individuais. Uma vez estabelecida essa base, a avaliação comparativa do HAIC pode começar a incorporar o elemento tempo. Os benchmarks atuais se assemelham a exames escolares — testes pontuais e padronizados de precisão. Mas a competência profissional real é avaliada de maneira diferente. Médicos e advogados em início de carreira são avaliados continuamente dentro de fluxos de trabalho reais, sob supervisão, com ciclos de feedback e estruturas de responsabilização. O desempenho é julgado ao longo do tempo e em um contexto específico, porque a competência é relacional. Se os sistemas de IA devem operar ao lado de profissionais, seu impacto deve ser avaliado longitudinalmente, refletindo como o desempenho se desenrola ao longo de interações repetidas. Vi esse aspecto do HAIC aplicado em um dos meus estudos de caso no setor humanitário. Ao longo de 18 meses, um sistema de IA foi avaliado dentro de fluxos de trabalho reais, com atenção especial à detectabilidade de seus erros — ou seja, com que facilidade as equipes humanas podiam identificá-los e corrigi-los. Esse “histórico de detectabilidade de erros” de longo prazo permitiu que as organizações envolvidas projetassem e testassem proteções específicas para cada contexto, a fim de promover a confiança no sistema, apesar da inevitabilidade de erros ocasionais da IA. Um horizonte temporal mais longo também torna visíveis as consequências em nível de sistema que os benchmarks de curto prazo deixam passar. Uma aplicação de IA pode superar um único médico em uma tarefa diagnóstica restrita, mas falhar em melhorar a tomada de decisão multidisciplinar. Pior ainda, ela pode introduzir distorções sistêmicas: fixando as equipes prematuramente em respostas plausíveis, mas incompletas, aumentando a carga cognitiva das pessoas ou gerando ineficiências a jusante que anulam quaisquer ganhos de velocidade ou eficiência no ponto de uso da IA. Esses efeitos em cadeia — muitas vezes invisíveis aos benchmarks atuais — são fundamentais para compreender o impacto real. A abordagem HAIC, reconhecidamente, promete tornar o benchmarking mais complexo, intensivo em recursos e mais difícil de padronizar. Mas continuar a avaliar a IA em condições isoladas, distantes do mundo do trabalho, nos deixará com uma compreensão errada do que ela realmente pode e não pode fazer por nós. Para implantar a IA de forma responsável em ambientes do mundo real, precisamos medir o que realmente importa: não apenas o que um modelo pode fazer sozinho, mas o que ele possibilita — ou prejudica — quando humanos e equipes no mundo real trabalham com ele. Angela Aristidou é professora da University College London e pesquisadora associada do Stanford Digital Economy Lab e do Stanford Human-Centered AI Institute. Ela dá palestras, escreve e presta consultoria sobre a implantação na vida real de ferramentas de inteligência artificial para o bem público.

Os benchmarks de IA estão ultrapassados. Eis o que precisamos em vez disso.

O que esta cobertura entrega

Sobre este artigo