Estudo de Oxford alerta que testes de IA podem superestimar capacidades dos modelos

Imagem: Shutterstock

Um novo estudo do Oxford Internet Institute (OII) coloca em xeque a credibilidade dos testes usados para medir o desempenho de sistemas de inteligência artificial. A pesquisa, realizada em parceria com mais de 30 instituições e publicada na terça-feira (5), analisou 445 benchmarks, os principais testes que servem de base para avaliar a performance de modelos de IA, e concluiu que muitos deles exageram as reais capacidades das máquinas e carecem de rigor científico.

Esses benchmarks são usados por desenvolvedores e pesquisadores para medir avanços técnicos e divulgar conquistas, desde habilidades de programação até raciocínio abstrato. No entanto, o estudo afirma que grande parte desses testes falha em definir com clareza o que pretende medir, reaproveita bases de dados antigas e raramente aplica métodos estatísticos confiáveis para comparar resultados entre modelos.

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

De acordo com Adam Mahdi, pesquisador sênior do OII e um dos autores principais, muitos testes acabam medindo conceitos diferentes daqueles que dizem avaliar. “Quando pedimos a um modelo de IA para executar uma tarefa, muitas vezes estamos, na prática, medindo algo completamente distinto do que acreditamos estar medindo”, afirmou à NBC News.

Andrew Bean, também coautor do estudo, reforça que até benchmarks amplamente reconhecidos são usados sem a devida cautela. “Devemos desconfiar quando ouvimos afirmações de que um modelo atingiu ‘nível de inteligência de Ph.D.’. Não temos certeza de que essas medições sejam realmente bem-feitas”, disse.

Falta de validade e clareza

Os pesquisadores chamam a atenção para a falta do que denominam “validade de construto”, isto é, a capacidade de um teste realmente medir o fenômeno que se propõe a avaliar. Em muitos casos, os benchmarks reúnem tarefas desconexas sem explicar como elas representam as habilidades que se deseja medir.

Um exemplo citado no estudo é o GSM8K, teste amplamente usado para medir raciocínio matemático em modelos de linguagem. Embora os resultados sejam frequentemente interpretados como evidência de competência em matemática, os autores afirmam que isso pode ser um erro de interpretação. “Se uma criança responde corretamente a uma soma simples, não significa que dominou o raciocínio matemático”, observou Mahdi.

Recomendações para melhorar os testes

O estudo propõe oito recomendações para tornar as medições mais precisas e transparentes, entre elas:

Definir claramente o escopo e o objetivo de cada benchmark;
Criar conjuntos de tarefas que representem melhor as habilidades avaliadas;
E, adotar análises estatísticas rigorosas para comparar desempenhos entre modelos.

Nikola Jurkovic, pesquisador do centro METR AI, elogiou as conclusões do trabalho. “Precisamos de mais rigor para interpretar resultados de benchmarks. Essa lista de verificação é um bom ponto de partida para garantir que as medições façam sentido”, afirmou.

O artigo se soma a um movimento crescente dentro da comunidade científica para revisar os métodos de avaliação de IA. Pesquisadores da Anthropic já haviam defendido, em 2024, o uso de testes estatísticos mais robustos para evitar conclusões equivocadas sobre avanços de modelos.

Nos últimos meses, novas abordagens vêm surgindo. A OpenAI, por exemplo, lançou uma série de avaliações que testam o desempenho da IA em tarefas reais de 44 profissões, como corrigir planilhas de vendas ou montar cronogramas de gravação de vídeos. Já o Center for AI Safety, dirigido por Dan Hendrycks, criou benchmarks voltados à automação de trabalhos remotos, buscando medir habilidades com aplicação econômica concreta.

Apesar das críticas, os pesquisadores de Oxford enfatizam que o campo ainda está em construção. “Estamos apenas no início da avaliação científica de sistemas de IA”, concluiu Mahdi.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Next Sam Altman diz que uma IA pode substituí-lo como CEO da OpenAI e sonha em virar fazendeiro »

Previous « União Europeia avalia flexibilizar GDPR para impulsionar a IA

Published by

Isabella Winckler

Tags: benchmarksIAinteligência artificialOxford Internet Institute

7 meses ago

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

A pressão por controle de custos vem alterando a dinâmica das áreas de tecnologia nas…

6 dias ago

Estudos

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

O mercado brasileiro de fintechs passou por uma transformação no perfil dos investimentos em 2025.…

6 dias ago

Notícias

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

O avanço da inteligência artificial e o uso estratégico de dados vêm transformando a forma…

7 dias ago

Artigos

Qual é o risco do desenvolvimento de software com IA?

Por Ramon Ribeiro Quase metade do código produzido por assistentes de inteligência artificial contém vulnerabilidades…

7 dias ago

Notícias

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem…

7 dias ago

Notícias

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

O IT Forum apresenta, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e mudanças…

7 dias ago

Estudo de Oxford alerta que testes de IA podem superestimar capacidades dos modelos

Falta de validade e clareza

Recomendações para melhorar os testes

Related Post

Recent Posts

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

Qual é o risco do desenvolvimento de software com IA?

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais