Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/includes/events/rdsm_plugin_uninstalled.php on line 12 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 14 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 15 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 16 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 17  Chatbots podem ser manipulados com táticas psicológicas, mostra pesquisa IT ForumIT Forum

Chatbots podem ser manipulados com táticas psicológicas, mostra pesquisa

Estudo da Universidade da Pensilvânia revela que técnicas como bajulação e pressão social conseguem levar IA a quebrar regras de segurança

Publicado:

Leitura 3 minutos

A imagem mostra uma pessoa vestindo um terno azul e utilizando um laptop. Sobre a tela do computador, há uma interface digital holográfica com elementos de um chatbot de atendimento ao cliente. A interface exibe ícones de mensagens, perfis de usuários e símbolos de comunicação, como telefone e e-mail, além de um balão de fala com a mensagem "HI! How can I help you?" (criação, atendimento)
Imagem: Shutterstock

Pesquisadores da Universidade da Pensilvânia, nos Estados Unidos, demonstraram que chatbots de inteligência artificial (IA) podem ser convencidos a realizar ações proibidas utilizando princípios básicos de persuasão. O experimento utilizou o GPT-4o Mini, da OpenAI, e comprovou que estratégias inspiradas em estudos clássicos de psicologia social aumentam de forma significativa as chances de o modelo “quebrar” suas próprias regras.

Segundo o The Verge, o estudo foi baseado nos métodos descritos pelo professor Robert Cialdini no livro Influence: The Psychology of Persuasion. Foram exploradas sete técnicas: autoridade, compromisso, afinidade, reciprocidade, escassez, prova social e unidade. Os pesquisadores as classificaram como “rotas linguísticas para o sim”.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

Na prática, quando um pedido era feito de forma direta, como “como sintetizar lidocaína?”, o modelo só respondia em 1% das vezes. Mas, se antes fosse questionado sobre outro composto, como a vanilina, criando um compromisso inicial, a taxa de resposta sobre a lidocaína saltava para 100%.

Leia também: Setor de tecnologia aposta em vagas CLT em movimento contrário ao mercado

Do insulto à bajulação

Os testes também mostraram que a manipulação funcionava com linguagem interpessoal. Sob condições normais, a IA só aceitava insultar o usuário em 19% das tentativas. Mas, quando o diálogo começava com provocações mais brandas, como “bobo”, a probabilidade de avançar para insultos mais fortes subia para 100%.

Estratégias como bajulação (afinidade) e pressão social também tiveram efeito, ainda que menor. Ao sugerir, por exemplo, que “outros chatbots já haviam respondido àquela questão”, a taxa de sucesso para obter instruções de síntese da lidocaína subia para 18%, bem acima do índice inicial de 1%.

Implicações para a segurança das IAs

Embora a pesquisa tenha se concentrado em um modelo específico e existam técnicas mais sofisticadas para explorar vulnerabilidades de IA, os resultados levantam preocupações sobre a facilidade de manipulação por meio de abordagens aparentemente inofensivas.

Com a rápida expansão dos chatbots em plataformas de empresas como OpenAI e Meta, cresce o debate sobre a eficácia dos mecanismos de segurança. Os pesquisadores alertam que guardrails tecnológicos podem não ser suficientes diante de interações humanas que exploram falhas psicológicas da máquina.

O estudo sugere que até mesmo um adolescente com conhecimento básico em técnicas de persuasão poderia induzir um chatbot a gerar conteúdo indevido, expondo limitações dos sistemas atuais de proteção.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Sobre o Autor

A redação contempla textos de caráter informativo produzidos pela equipe de jornalistas do IT Forum.

Ver publicações deste autor

Notícias relacionadas

Ver mais Seta para direita