Anthropic avança na compreensão dos mecanismos internos de modelos de linguagem

Anthropic dá passo importante para tornar modelos de linguagem mais interpretáveis ao mapear padrões internos que revelam como a IA processa conceitos

Publicado: 29/03/2025 às 14:00

Redação

Leitura 3 minutos

Imagem mostrando a tela de um smartphone com o logotipo da Anthropic em destaque, com letras pretas sobre fundo branco. Ao fundo, é visível um teclado de computador desfocado, em tons escuros e iluminação azulada, criando um contraste com a nitidez do logotipo; a empresa lançou ferramento IA para cibersegurança.

Imagem: Shutterstock

A Anthropic, startup de inteligência artificial (IA) fundada por ex-funcionários da OpenAI, anunciou um importante avanço na interpretação do funcionamento interno de modelos de linguagem de grande porte (LLMs, na sigla em inglês). A empresa conseguiu rastrear como essas redes neurais processam conceitos complexos, em um esforço para tornar a IA mais compreensível e segura.

Segundo informações do MIT Technology Review, os pesquisadores da Anthropic conseguiram mapear padrões internos que surgem em modelos de IA de forma mais eficaz do que nunca.

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

Essas funcionalidade representam conceitos abstratos que o modelo “aprende” durante o treinamento, como a estrutura de um haicai, o formato de uma equação matemática ou até o estilo de um autor específico. A novidade é que a equipe conseguiu identificar mais de 10 milhões dessas features em uma única camada de um dos modelos da empresa.

Esse processo de identificação é parte de uma linha de pesquisa chamada “interpretação mecânica”, que busca entender como redes neurais tomam decisões e manipulam informação internamente.

De acordo com o MIT Technology Review, a técnica utilizada pela Anthropic envolve associar features a neurônios virtuais, permitindo rastrear como elas são ativadas dentro do modelo e como se combinam para gerar respostas.

A iniciativa representa um salto em direção à transparência e à interpretabilidade da IA. Com esse tipo de abordagem, torna-se possível mitigar riscos como alucinações, viés e comportamentos inesperados de modelos de linguagem, além de facilitar auditorias e tornar o uso da IA mais confiável em aplicações críticas.

Colaboração com a Anthropic

A Anthropic planeja abrir parte dessa pesquisa à comunidade científica, permitindo que outros pesquisadores explorem as features identificadas e avancem nos esforços de compreensão da IA generativa. Para isso, será lançado um conjunto de dados com mais de 5 milhões de features anotadas.

Embora ainda seja um campo em estágio inicial, a interpretação mecânica é considerada promissora. Segundo a MIT Technology Review, especialistas acreditam que esse tipo de trabalho pode eventualmente permitir intervenções mais precisas em modelos de linguagem, como remover features associadas a desinformação ou reforçar aquelas que promovem respostas mais seguras.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Sobre o Autor

Redação

A redação contempla textos de caráter informativo produzidos pela equipe de jornalistas do IT Forum.

Ver publicações deste autor

Anthropic avança na compreensão dos mecanismos internos de modelos de linguagem

Colaboração com a Anthropic

Mais lidas

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

Na compra de um MP3 Player

IA muda entrevistas para programadores e força revisão dos processos de contratação

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

Sobre o Autor

Redação

Notícias relacionadas

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

Qual é o risco do desenvolvimento de software com IA?