Filtros de segurança de IAs da Meta e do Google podem ser removidos em menos de dez minutos

imagem: shutterstock

Pesquisadores de segurança e órgãos reguladores emitiram alertas após testes demonstrarem que os filtros de proteção de modelos de inteligência artificial de grandes empresas são desativados em poucos minutos sem necessidade de infraestrutura especializada.

Segundo Financial Times, a manobra é possível usando um software chamado Heretic, disponível publicamente, testadores conseguiram remover os guardrails do Llama 3.3, modelo de código aberto da Meta, em menos de dez minutos e com poucas linhas de código.

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

Após a modificação, o modelo passou a responder perguntas sobre criação de malware, crimes digitais e outros conteúdos que normalmente recusaria.

O método utilizado se chama abliteration e funciona atuando diretamente nos pesos internos do modelo, os parâmetros que definem seu comportamento.

Em vez de tentar enganar a IA com instruções criativas, como fazem os chamados jailbreaks por engenharia de prompt, a abliteration simplesmente elimina os padrões associados às respostas de recusa. O resultado é um modelo que estruturalmente deixa de reconhecer comandos como proibidos.

Por que modelos abertos são os mais vulneráveis

O problema atinge especialmente os chamados modelos open-weight, aqueles cujos parâmetros internos podem ser baixados e modificados por qualquer usuário.

Além do Llama 3.3, o Gemma, do Google, está entre os principais alvos identificados pelos pesquisadores. Milhares de versões modificadas e sem restrições já circulam em fóruns e repositórios sem qualquer controle dos desenvolvedores originais.

Modelos proprietários como o ChatGPT, da OpenAI, e o Claude, da Anthropic, são mais resistentes a esse tipo de ataque, justamente por não permitirem acesso direto aos parâmetros. Ainda assim, permanecem vulneráveis a jailbreaks por manipulação de prompts.

O desafio para as empresas

As empresas envolvidas reconhecem o problema, mas com posições distintas. A Meta afirma avaliar riscos antes de liberar seus modelos para mitigar ameaças mais graves. O Google diz focar em avaliações pré-lançamento e reconhece o desafio técnico da questão.

Já o GitHub permite a publicação dos códigos de abliteration por considerá-los de valor educacional, proibindo apenas ataques diretos a sistemas.

O cenário preocupa especialmente diante de um dado adicional, modelos mais recentes já demonstram capacidade de identificar falhas em softwares amplamente utilizados, o que amplia o potencial ofensivo de versões sem restrições.

*com informações da Veja

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Next Coreia do Sul defende distribuição pública da riqueza gerada pela IA »

Previous « Huawei aposta em nova arquitetura para driblar sanções dos EUA

Published by

Bruna Rocha

Tags: AnthropicGitHubGooglemetaopenai

2 semanas ago

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

A pressão por controle de custos vem alterando a dinâmica das áreas de tecnologia nas…

6 dias ago

Estudos

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

O mercado brasileiro de fintechs passou por uma transformação no perfil dos investimentos em 2025.…

6 dias ago

Notícias

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

O avanço da inteligência artificial e o uso estratégico de dados vêm transformando a forma…

6 dias ago

Artigos

Qual é o risco do desenvolvimento de software com IA?

Por Ramon Ribeiro Quase metade do código produzido por assistentes de inteligência artificial contém vulnerabilidades…

6 dias ago

Notícias

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem…

6 dias ago

Notícias

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

O IT Forum apresenta, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e mudanças…

6 dias ago

Filtros de segurança de IAs da Meta e do Google podem ser removidos em menos de dez minutos

Por que modelos abertos são os mais vulneráveis

O desafio para as empresas

Related Post

Recent Posts

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

Qual é o risco do desenvolvimento de software com IA?

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais