Anthropic avança na compreensão dos mecanismos internos de modelos de linguagem

Anthropic dá passo importante para tornar modelos de linguagem mais interpretáveis ao mapear padrões internos que revelam como a IA processa conceitos

Publicado:

Leitura 3 minutos

Imagem mostrando a tela de um smartphone com o logotipo da Anthropic em destaque, com letras pretas sobre fundo branco. Ao fundo, é visível um teclado de computador desfocado, em tons escuros e iluminação azulada, criando um contraste com a nitidez do logotipo; a empresa lançou ferramento IA para cibersegurança.
Imagem: Shutterstock

A Anthropic, startup de inteligência artificial (IA) fundada por ex-funcionários da OpenAI, anunciou um importante avanço na interpretação do funcionamento interno de modelos de linguagem de grande porte (LLMs, na sigla em inglês). A empresa conseguiu rastrear como essas redes neurais processam conceitos complexos, em um esforço para tornar a IA mais compreensível e segura.

Segundo informações do MIT Technology Review, os pesquisadores da Anthropic conseguiram mapear padrões internos que surgem em modelos de IA de forma mais eficaz do que nunca.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

Essas funcionalidade representam conceitos abstratos que o modelo “aprende” durante o treinamento, como a estrutura de um haicai, o formato de uma equação matemática ou até o estilo de um autor específico. A novidade é que a equipe conseguiu identificar mais de 10 milhões dessas features em uma única camada de um dos modelos da empresa.

Esse processo de identificação é parte de uma linha de pesquisa chamada “interpretação mecânica”, que busca entender como redes neurais tomam decisões e manipulam informação internamente.

Leia também: Mara Maehara, a CIO que trocou os palcos pela TI e brilhou nos dois

De acordo com o MIT Technology Review, a técnica utilizada pela Anthropic envolve associar features a neurônios virtuais, permitindo rastrear como elas são ativadas dentro do modelo e como se combinam para gerar respostas.

A iniciativa representa um salto em direção à transparência e à interpretabilidade da IA. Com esse tipo de abordagem, torna-se possível mitigar riscos como alucinações, viés e comportamentos inesperados de modelos de linguagem, além de facilitar auditorias e tornar o uso da IA mais confiável em aplicações críticas.

Colaboração com a Anthropic

A Anthropic planeja abrir parte dessa pesquisa à comunidade científica, permitindo que outros pesquisadores explorem as features identificadas e avancem nos esforços de compreensão da IA generativa. Para isso, será lançado um conjunto de dados com mais de 5 milhões de features anotadas.

Embora ainda seja um campo em estágio inicial, a interpretação mecânica é considerada promissora. Segundo a MIT Technology Review, especialistas acreditam que esse tipo de trabalho pode eventualmente permitir intervenções mais precisas em modelos de linguagem, como remover features associadas a desinformação ou reforçar aquelas que promovem respostas mais seguras.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Sobre o Autor

A redação contempla textos de caráter informativo produzidos pela equipe de jornalistas do IT Forum.

Ver publicações deste autor

Notícias relacionadas

Ver mais Seta para direita