Modelos da OpenAI “decoraram” conteúdos protegidos por direitos autorais, aponta estudo

Imagem: Shutterstock

Uma nova pesquisa reforça as suspeitas de que a OpenAI teria utilizado materiais protegidos por direitos autorais, como livros e reportagens, para treinar seus modelos de inteligência artificial (IA), sem a devida autorização dos autores.

A empresa está no centro de uma série de processos movidos por escritores, programadores e outros criadores, que acusam a companhia de ter se apropriado de suas obras para alimentar modelos como o GPT-4.

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

A OpenAI, por sua vez, se defende com o argumento do “uso justo” (fair use), embora especialistas e autores contestem essa justificativa, lembrando que a legislação de direitos autorais dos EUA não prevê exceções específicas para dados usados em treinamentos de IA.

O estudo, desenvolvido por pesquisadores das universidades de Washington, Copenhague e Stanford, propõe um novo método para detectar casos de memorização de dados por modelos de linguagem, inclusive aqueles acessados apenas via API, como os da OpenAI.

Reprodução idêntica

Embora os modelos de IA sejam, na essência, mecanismos de previsão capazes de gerar textos, imagens e outros conteúdos com base em padrões aprendidos, parte do material de saída pode, sim, reproduzir trechos idênticos ao que foi visto durante o treinamento.

Já se observou, por exemplo, modelos de imagem repetindo cenas de filmes usados nos dados de treinamento e modelos de texto recriando quase literalmente reportagens jornalísticas.

A nova técnica se baseia na ideia de “palavras de alta surpresa”, termos pouco prováveis num determinado contexto. Ao mascarar essas palavras em trechos de livros de ficção ou de reportagens do New York Times e pedir para que o modelo preenchesse as lacunas, os pesquisadores conseguiram medir se a IA estava simplesmente prevendo com base em padrões ou se estava reproduzindo o texto de memória. Quando a IA acerta essas palavras incomuns com frequência, é sinal de que o conteúdo pode ter sido memorizado.

Os testes foram feitos com o GPT-3.5 e o GPT-4, e os resultados indicam que o modelo mais recente apresenta sinais claros de ter memorizado partes de livros populares — incluindo obras presentes no conjunto de dados BookMIA, que reúne trechos de e-books protegidos por copyright. Também foram encontrados indícios de memorização de reportagens do New York Times, embora com menor intensidade.

Para Abhilasha Ravichander, doutoranda na Universidade de Washington e coautora do estudo, os achados levantam um alerta importante sobre o tipo de conteúdo que pode estar sendo usado no treinamento de modelos de IA.

“Se queremos confiar nessas tecnologias, precisamos de modelos auditáveis, transparentes, que possam ser examinados com rigor científico”, disse Ravichander ao TechCrunch. “Nosso estudo é uma tentativa de oferecer uma ferramenta para isso, mas é urgente que todo o ecossistema avance em transparência sobre os dados.”

A OpenAI, por sua vez, tem pressionado por uma flexibilização das regras sobre o uso de obras protegidas no treinamento de IA. A empresa já firmou alguns acordos de licenciamento e permite que criadores solicitem a exclusão de seus conteúdos dos datasets, mas também atua junto a governos para tentar consolidar legalmente o conceito de “uso justo” nesse contexto.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

*informações retiradas do Tech Crunch

Next Brasil é escolhido para receber área de TI do Grupo Prosegur »

Previous « 4 dicas para quem deseja se preparar para carreiras de tecnologia

Published by

Isabella Winckler

Tags: direitos autoraisinteligência artificialmodelosopenairegulamentação AI

1 ano ago

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

A pressão por controle de custos vem alterando a dinâmica das áreas de tecnologia nas…

7 dias ago

Estudos

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

O mercado brasileiro de fintechs passou por uma transformação no perfil dos investimentos em 2025.…

7 dias ago

Notícias

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

O avanço da inteligência artificial e o uso estratégico de dados vêm transformando a forma…

7 dias ago

Artigos

Qual é o risco do desenvolvimento de software com IA?

Por Ramon Ribeiro Quase metade do código produzido por assistentes de inteligência artificial contém vulnerabilidades…

7 dias ago

Notícias

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem…

7 dias ago

Notícias

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

O IT Forum apresenta, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e mudanças…

7 dias ago

Modelos da OpenAI “decoraram” conteúdos protegidos por direitos autorais, aponta estudo

Reprodução idêntica

Related Post

Recent Posts

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

Qual é o risco do desenvolvimento de software com IA?

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais