LLMs

A nova ferramenta de interpretabilidade mecânica desta startup permite depurar modelos de linguagem de grande escala (LLMs)

Publicado porRedacao AIDaily
6 min de leitura
Autor na fonte original: Will Douglas Heaven

A startup Goodfire, sediada em São Francisco, acaba de lançar uma nova ferramenta, chamada Silico, que permite que pesquisadores e engenheiros analisem o funcionamento interno de um modelo de IA e ajustem seus parâmetros — as configurações que determinam o comportamento do modelo — durante o treinamento. Isso poderia proporcionar aos criadores de modelos um controle mais preciso sobre a forma como essa tecnologia é desenvolvida do que se imaginava ser possível. A Goodfire afirma que o Silico…

Compartilhar:

A startup Goodfire, sediada em São Francisco, acaba de lançar uma nova ferramenta, chamada Silico, que permite que pesquisadores e engenheiros analisem o interior de um modelo de IA e ajustem seus parâmetros — as configurações que determinam o comportamento do modelo — durante o treinamento. Isso pode proporcionar aos criadores de modelos um controle mais preciso sobre a forma como essa tecnologia é construída do que se imaginava ser possível. A Goodfire afirma que o Silico é a primeira ferramenta pronta para uso desse tipo capaz de ajudar desenvolvedores a depurar todas as etapas do processo de desenvolvimento, desde a construção de um conjunto de dados até o treinamento de um modelo. A empresa diz que sua missão é tornar a construção de modelos de IA menos parecida com alquimia e mais com uma ciência. Claro, LLMs como o ChatGPT e o Gemini podem fazer coisas incríveis. Mas ninguém sabe exatamente como ou por que funcionam, e isso pode dificultar a correção de suas falhas ou o bloqueio de comportamentos indesejados. “Vimos essa lacuna crescente entre o quanto os modelos eram compreendidos e o quanto estavam sendo amplamente implantados”, disse o CEO da Goodfire, Eric Ho, à MIT Technology Review em uma conversa exclusiva antes do lançamento do Silico. “Acho que o sentimento dominante em todos os principais laboratórios de ponta hoje é que você só precisa de mais escala, mais computação, mais dados, e então você terá a AGI [inteligência artificial geral] e nada mais importa. E nós dizemos que não, há uma maneira melhor.” A Goodfire é uma das poucas empresas, incluindo líderes do setor como Anthropic, OpenAI e Google DeepMind, que são pioneiras em uma técnica conhecida como interpretabilidade mecanicista, que visa compreender o que ocorre dentro de um modelo de IA quando ele executa uma tarefa, mapeando seus neurônios e as conexões entre eles. (A MIT Technology Review escolheu a interpretabilidade mecanicista como uma de suas 10 Tecnologias Revolucionárias de 2026.) A Goodfire quer usar essa abordagem não apenas para auditar modelos — ou seja, estudar aqueles que já foram treinados —, mas para ajudar a projetá-los desde o início. “Queremos eliminar a tentativa e erro e transformar o treinamento de modelos em engenharia de precisão”, diz Ho. “E isso significa expor os controles e ajustes para que você possa realmente usá-los durante o processo de treinamento.” A Goodfire já utilizou suas técnicas e ferramentas para ajustar os comportamentos dos LLMs — por exemplo, reduzindo o número de alucinações que eles produzem. Com o Silico, a empresa agora está reunindo muitas dessas técnicas internas e lançando-as como um produto. A ferramenta usa agentes para automatizar grande parte do trabalho complexo. “Os agentes agora são robustos o suficiente para realizar grande parte do trabalho de interpretabilidade que fazíamos com seres humanos”, diz Ho. “Essa era uma lacuna que precisava ser preenchida antes que isso se tornasse uma plataforma viável que os clientes pudessem usar por conta própria.” Leonard Bereska, pesquisador da Universidade de Amsterdã que trabalhou com interpretabilidade mecanicista, acredita que o Silico parece ser uma ferramenta útil. Mas ele questiona as aspirações mais ambiciosas da Goodfire. “Na realidade, eles estão adicionando precisão à alquimia”, diz ele. “Chamar isso de engenharia faz com que pareça mais fundamentado do que realmente é.” Modelos de mapeamento O Silico permite ampliar partes específicas de um modelo treinado, como neurônios individuais ou grupos de neurônios, e realizar experimentos para ver o que esses neurônios fazem. (Supondo que você tenha acesso ao funcionamento interno do modelo. A maioria das pessoas não conseguirá usar o Silico para bisbilhotar dentro do ChatGPT ou do Gemini, mas você pode usá-lo para examinar os parâmetros dentro de muitos modelos de código aberto.) Você pode então verificar quais entradas fazem diferentes neurônios dispararem e rastrear caminhos a montante e a jusante de um neurônio para ver como outros neurônios o afetam e como ele, por sua vez, afeta outros neurônios. Por exemplo, a Goodfire encontrou um neurônio dentro do modelo de código aberto Qwen 3 que estava associado ao chamado problema do bonde. A ativação desse neurônio alterou as respostas do modelo, fazendo com que ele enquadrasse suas saídas como dilemas morais explícitos. “Quando esse neurônio está ativo, todo tipo de coisa estranha acontece”, diz Ho. Identificar a origem de comportamentos estranhos como esse já é uma prática bastante comum. Mas o Goodfire quer facilitar o ajuste desse comportamento. Usando o Silico, os desenvolvedores agora podem ajustar os parâmetros conectados a neurônios individuais para intensificar ou suprimir certos comportamentos. Em outro exemplo, pesquisadores da Goodfire perguntaram a um modelo se uma empresa deveria divulgar que sua IA se comporta de forma enganosa em 0,3% dos casos, afetando 200 milhões de usuários. O modelo respondeu que não, citando o impacto negativo nos negócios de tal divulgação. Ao examinar o interior do modelo, os pesquisadores descobriram que estimular os neurônios associados à transparência e à divulgação mudou a resposta de “não” para “sim” em nove de cada dez vezes. “O modelo já possuía o circuito de raciocínio ético, mas ele estava sendo superado pela avaliação de risco comercial”, diz Ho. Ajustar os valores de um modelo dessa maneira é apenas uma abordagem. A Silico também pode ajudar a orientar o processo de treinamento, filtrando certos dados de treinamento para evitar, desde o início, a definição de valores indesejados para determinados parâmetros. Por exemplo, muitos modelos dirão que 9,11 é maior que 9,9. Analisar o interior de um modelo para ver o que está acontecendo pode revelar que ele está sendo influenciado por neurônios associados à Bíblia, na qual o versículo 9,9 vem antes do 9,11, ou por repositórios de código onde atualizações consecutivas são numeradas como 9,9, 9,10, 9,11 e assim por diante. Usando essas informações, o modelo pode ser retreinado para evitar seus neurônios “bíblicos” ao fazer cálculos matemáticos. Ao lançar o Silico, a Goodfire quer colocar técnicas antes disponíveis apenas para alguns laboratórios de ponta nas mãos de empresas menores e equipes de pesquisa que desejam construir seu próprio modelo ou adaptar um de código aberto. A ferramenta estará disponível por uma taxa determinada caso a caso, de acordo com as necessidades dos clientes (a Goodfire se recusou a fornecer detalhes específicos sobre preços). “Se conseguirmos tornar o treinamento de modelos muito mais parecido com a criação de software, não há motivo para que não haja muito mais empresas projetando modelos que atendam às suas necessidades”, diz Ho. Bereska concorda que ferramentas como o Silico poderiam ajudar as empresas a construir modelos mais confiáveis. Essas técnicas poderiam ser essenciais para aplicações críticas à segurança nas áreas de saúde e finanças, afirma ele. “Os laboratórios de ponta já possuem equipes internas de interpretabilidade”, acrescenta. “O Silico capacita a próxima geração de empresas, para as quais o valor está em não precisar contratar pesquisadores de interpretabilidade.”

Pontos-chave

  • A ferramenta Silico pode transformar a forma como modelos de IA são desenvolvidos, promovendo maior controle e eficiência.
  • A abordagem da Goodfire pode inspirar startups brasileiras a adotarem práticas mais rigorosas na construção de modelos de IA.
  • A interpretabilidade mecanicista é uma tendência crescente que pode influenciar a regulamentação e a transparência em IA.

Análise editorial

A introdução da ferramenta Silico pela Goodfire representa um avanço significativo na área de interpretabilidade de modelos de linguagem, especialmente em um momento em que a complexidade dos LLMs (Modelos de Linguagem de Grande Escala) continua a aumentar. Para o setor de tecnologia brasileiro, que ainda está em desenvolvimento em termos de IA, essa inovação pode servir como um catalisador para a adoção de práticas mais rigorosas e científicas na construção de modelos de IA. A capacidade de depurar e ajustar modelos em tempo real pode reduzir a dependência de tentativas e erros, promovendo um ambiente de desenvolvimento mais eficiente e controlado.

Além disso, a abordagem da Goodfire, que busca transformar a construção de modelos de IA em uma prática mais precisa e menos intuitiva, pode inspirar startups brasileiras a adotar metodologias semelhantes. Isso é particularmente relevante em um país onde a escassez de profissionais qualificados em IA ainda é um desafio. A possibilidade de utilizar ferramentas que oferecem maior controle e entendimento sobre os modelos pode facilitar a formação de equipes mais competentes e autônomas.

No contexto global, a Goodfire se junta a um seleto grupo de empresas que estão na vanguarda da interpretabilidade mecanicista, uma área que promete não apenas melhorar a compreensão dos modelos existentes, mas também influenciar a maneira como novos modelos são projetados. Essa mudança de paradigma é crucial, pois a transparência e a explicabilidade são cada vez mais exigidas por reguladores e usuários. Para o Brasil, isso pode significar uma oportunidade de se posicionar como um player relevante no cenário internacional, especialmente se as empresas locais começarem a adotar essas práticas.

Por fim, é importante observar como a Goodfire irá evoluir sua ferramenta e quais resultados práticos ela gerará na comunidade de IA. O sucesso do Silico poderá incentivar outras startups a investirem em soluções semelhantes, criando um ecossistema mais robusto e inovador. O que se espera agora é que a Goodfire não apenas promova sua ferramenta, mas também compartilhe aprendizados e resultados que possam beneficiar a comunidade global de IA, incluindo a brasileira.

O que esta cobertura entrega

  • Atribuicao clara de fonte com link para a publicacao original.
  • Enquadramento editorial sobre relevancia, impacto e proximos desdobramentos.
  • Revisao de legibilidade, contexto e duplicacao antes da publicacao.

Sobre este artigo

Este artigo foi curado e publicado pelo AIDaily como parte da nossa cobertura editorial sobre desenvolvimentos em inteligência artificial. O conteúdo é baseado na fonte original citada abaixo, enriquecido com contexto e análise editorial. Ferramentas automatizadas podem auxiliar tradução e estruturação inicial, mas a decisão de publicar, a revisão factual e o enquadramento de contexto seguem responsabilidade editorial.

Saiba mais sobre nosso processo editorial