A nova ferramenta de interpretabilidade mecânica desta startup permite depurar modelos de linguagem de grande escala (LLMs)

A startup Goodfire, sediada em São Francisco, acaba de lançar uma nova ferramenta, chamada Silico, que permite que pesquisadores e engenheiros analisem o interior de um modelo de IA e ajustem seus parâmetros — as configurações que determinam o comportamento do modelo — durante o treinamento. Isso pode proporcionar aos criadores de modelos um controle mais preciso sobre a forma como essa tecnologia é construída do que se imaginava ser possível. A Goodfire afirma que o Silico é a primeira ferramenta pronta para uso desse tipo capaz de ajudar desenvolvedores a depurar todas as etapas do processo de desenvolvimento, desde a construção de um conjunto de dados até o treinamento de um modelo. A empresa diz que sua missão é tornar a construção de modelos de IA menos parecida com alquimia e mais com uma ciência. Claro, LLMs como o ChatGPT e o Gemini podem fazer coisas incríveis. Mas ninguém sabe exatamente como ou por que funcionam, e isso pode dificultar a correção de suas falhas ou o bloqueio de comportamentos indesejados. “Vimos essa lacuna crescente entre o quanto os modelos eram compreendidos e o quanto estavam sendo amplamente implantados”, disse o CEO da Goodfire, Eric Ho, à MIT Technology Review em uma conversa exclusiva antes do lançamento do Silico. “Acho que o sentimento dominante em todos os principais laboratórios de ponta hoje é que você só precisa de mais escala, mais computação, mais dados, e então você terá a AGI [inteligência artificial geral] e nada mais importa. E nós dizemos que não, há uma maneira melhor.” A Goodfire é uma das poucas empresas, incluindo líderes do setor como Anthropic, OpenAI e Google DeepMind, que são pioneiras em uma técnica conhecida como interpretabilidade mecanicista, que visa compreender o que ocorre dentro de um modelo de IA quando ele executa uma tarefa, mapeando seus neurônios e as conexões entre eles. (A MIT Technology Review escolheu a interpretabilidade mecanicista como uma de suas 10 Tecnologias Revolucionárias de 2026.) A Goodfire quer usar essa abordagem não apenas para auditar modelos — ou seja, estudar aqueles que já foram treinados —, mas para ajudar a projetá-los desde o início. “Queremos eliminar a tentativa e erro e transformar o treinamento de modelos em engenharia de precisão”, diz Ho. “E isso significa expor os controles e ajustes para que você possa realmente usá-los durante o processo de treinamento.” A Goodfire já utilizou suas técnicas e ferramentas para ajustar os comportamentos dos LLMs — por exemplo, reduzindo o número de alucinações que eles produzem. Com o Silico, a empresa agora está reunindo muitas dessas técnicas internas e lançando-as como um produto. A ferramenta usa agentes para automatizar grande parte do trabalho complexo. “Os agentes agora são robustos o suficiente para realizar grande parte do trabalho de interpretabilidade que fazíamos com seres humanos”, diz Ho. “Essa era uma lacuna que precisava ser preenchida antes que isso se tornasse uma plataforma viável que os clientes pudessem usar por conta própria.” Leonard Bereska, pesquisador da Universidade de Amsterdã que trabalhou com interpretabilidade mecanicista, acredita que o Silico parece ser uma ferramenta útil. Mas ele questiona as aspirações mais ambiciosas da Goodfire. “Na realidade, eles estão adicionando precisão à alquimia”, diz ele. “Chamar isso de engenharia faz com que pareça mais fundamentado do que realmente é.” Modelos de mapeamento O Silico permite ampliar partes específicas de um modelo treinado, como neurônios individuais ou grupos de neurônios, e realizar experimentos para ver o que esses neurônios fazem. (Supondo que você tenha acesso ao funcionamento interno do modelo. A maioria das pessoas não conseguirá usar o Silico para bisbilhotar dentro do ChatGPT ou do Gemini, mas você pode usá-lo para examinar os parâmetros dentro de muitos modelos de código aberto.) Você pode então verificar quais entradas fazem diferentes neurônios dispararem e rastrear caminhos a montante e a jusante de um neurônio para ver como outros neurônios o afetam e como ele, por sua vez, afeta outros neurônios. Por exemplo, a Goodfire encontrou um neurônio dentro do modelo de código aberto Qwen 3 que estava associado ao chamado problema do bonde. A ativação desse neurônio alterou as respostas do modelo, fazendo com que ele enquadrasse suas saídas como dilemas morais explícitos. “Quando esse neurônio está ativo, todo tipo de coisa estranha acontece”, diz Ho. Identificar a origem de comportamentos estranhos como esse já é uma prática bastante comum. Mas o Goodfire quer facilitar o ajuste desse comportamento. Usando o Silico, os desenvolvedores agora podem ajustar os parâmetros conectados a neurônios individuais para intensificar ou suprimir certos comportamentos. Em outro exemplo, pesquisadores da Goodfire perguntaram a um modelo se uma empresa deveria divulgar que sua IA se comporta de forma enganosa em 0,3% dos casos, afetando 200 milhões de usuários. O modelo respondeu que não, citando o impacto negativo nos negócios de tal divulgação. Ao examinar o interior do modelo, os pesquisadores descobriram que estimular os neurônios associados à transparência e à divulgação mudou a resposta de “não” para “sim” em nove de cada dez vezes. “O modelo já possuía o circuito de raciocínio ético, mas ele estava sendo superado pela avaliação de risco comercial”, diz Ho. Ajustar os valores de um modelo dessa maneira é apenas uma abordagem. A Silico também pode ajudar a orientar o processo de treinamento, filtrando certos dados de treinamento para evitar, desde o início, a definição de valores indesejados para determinados parâmetros. Por exemplo, muitos modelos dirão que 9,11 é maior que 9,9. Analisar o interior de um modelo para ver o que está acontecendo pode revelar que ele está sendo influenciado por neurônios associados à Bíblia, na qual o versículo 9,9 vem antes do 9,11, ou por repositórios de código onde atualizações consecutivas são numeradas como 9,9, 9,10, 9,11 e assim por diante. Usando essas informações, o modelo pode ser retreinado para evitar seus neurônios “bíblicos” ao fazer cálculos matemáticos. Ao lançar o Silico, a Goodfire quer colocar técnicas antes disponíveis apenas para alguns laboratórios de ponta nas mãos de empresas menores e equipes de pesquisa que desejam construir seu próprio modelo ou adaptar um de código aberto. A ferramenta estará disponível por uma taxa determinada caso a caso, de acordo com as necessidades dos clientes (a Goodfire se recusou a fornecer detalhes específicos sobre preços). “Se conseguirmos tornar o treinamento de modelos muito mais parecido com a criação de software, não há motivo para que não haja muito mais empresas projetando modelos que atendam às suas necessidades”, diz Ho. Bereska concorda que ferramentas como o Silico poderiam ajudar as empresas a construir modelos mais confiáveis. Essas técnicas poderiam ser essenciais para aplicações críticas à segurança nas áreas de saúde e finanças, afirma ele. “Os laboratórios de ponta já possuem equipes internas de interpretabilidade”, acrescenta. “O Silico capacita a próxima geração de empresas, para as quais o valor está em não precisar contratar pesquisadores de interpretabilidade.”

A nova ferramenta de interpretabilidade mecânica desta startup permite depurar modelos de linguagem de grande escala (LLMs)

Pontos-chave

Análise editorial

O que esta cobertura entrega

Sobre este artigo