Modelos da OpenAI “decoraram” conteúdos protegidos por direitos autorais, aponta estudo

Imagem: Shutterstock

Uma nova pesquisa reforça as suspeitas de que a OpenAI teria utilizado materiais protegidos por direitos autorais, como livros e reportagens, para treinar seus modelos de inteligência artificial (IA), sem a devida autorização dos autores.

A empresa está no centro de uma série de processos movidos por escritores, programadores e outros criadores, que acusam a companhia de ter se apropriado de suas obras para alimentar modelos como o GPT-4.

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

A OpenAI, por sua vez, se defende com o argumento do “uso justo” (fair use), embora especialistas e autores contestem essa justificativa, lembrando que a legislação de direitos autorais dos EUA não prevê exceções específicas para dados usados em treinamentos de IA.

O estudo, desenvolvido por pesquisadores das universidades de Washington, Copenhague e Stanford, propõe um novo método para detectar casos de memorização de dados por modelos de linguagem, inclusive aqueles acessados apenas via API, como os da OpenAI.

Reprodução idêntica

Embora os modelos de IA sejam, na essência, mecanismos de previsão capazes de gerar textos, imagens e outros conteúdos com base em padrões aprendidos, parte do material de saída pode, sim, reproduzir trechos idênticos ao que foi visto durante o treinamento.

Já se observou, por exemplo, modelos de imagem repetindo cenas de filmes usados nos dados de treinamento e modelos de texto recriando quase literalmente reportagens jornalísticas.

A nova técnica se baseia na ideia de “palavras de alta surpresa”, termos pouco prováveis num determinado contexto. Ao mascarar essas palavras em trechos de livros de ficção ou de reportagens do New York Times e pedir para que o modelo preenchesse as lacunas, os pesquisadores conseguiram medir se a IA estava simplesmente prevendo com base em padrões ou se estava reproduzindo o texto de memória. Quando a IA acerta essas palavras incomuns com frequência, é sinal de que o conteúdo pode ter sido memorizado.

Os testes foram feitos com o GPT-3.5 e o GPT-4, e os resultados indicam que o modelo mais recente apresenta sinais claros de ter memorizado partes de livros populares — incluindo obras presentes no conjunto de dados BookMIA, que reúne trechos de e-books protegidos por copyright. Também foram encontrados indícios de memorização de reportagens do New York Times, embora com menor intensidade.

Para Abhilasha Ravichander, doutoranda na Universidade de Washington e coautora do estudo, os achados levantam um alerta importante sobre o tipo de conteúdo que pode estar sendo usado no treinamento de modelos de IA.

“Se queremos confiar nessas tecnologias, precisamos de modelos auditáveis, transparentes, que possam ser examinados com rigor científico”, disse Ravichander ao TechCrunch. “Nosso estudo é uma tentativa de oferecer uma ferramenta para isso, mas é urgente que todo o ecossistema avance em transparência sobre os dados.”

A OpenAI, por sua vez, tem pressionado por uma flexibilização das regras sobre o uso de obras protegidas no treinamento de IA. A empresa já firmou alguns acordos de licenciamento e permite que criadores solicitem a exclusão de seus conteúdos dos datasets, mas também atua junto a governos para tentar consolidar legalmente o conceito de “uso justo” nesse contexto.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

*informações retiradas do Tech Crunch

Next Brasil é escolhido para receber área de TI do Grupo Prosegur »

Previous « 4 dicas para quem deseja se preparar para carreiras de tecnologia

Published by

Isabella Winckler

Tags: direitos autoraisinteligência artificialmodelosopenairegulamentação AI

1 ano ago

Com a IA, setor de saúde vive revolução que o marketing digital proporcionou há dez anos

por Eduardo Barros A transformação da inteligência artificial (IA) nos negócios lembra o que aconteceu…

4 dias ago

Inovação

Snowflake registra crescimento de 33% na receita e eleva projeções para o ano fiscal de 2027

A Snowflake anunciou os resultados financeiros do primeiro trimestre do ano fiscal de 2027, encerrado…

5 dias ago

Notícias

UE ordena que Meta reabra WhatsApp a chatbots rivais

A Comissão Europeia determinou que a Meta reestabeleça o acesso de assistentes de inteligência artificial…

5 dias ago

Notícias

IPO da SpaceX chega ao mercado como aposta de US$ 1,75 trilhão em IA, não em foguetes

As negociações com as ações da SpaceX têm início nesta quinta-feira, 12, em uma oferta…

5 dias ago

Notícias

IA muda jornada de compra e devolve relevância aos sites de avaliação B2B, diz Forrester

A ascensão dos agentes de inteligência artificial (IA) está criando uma oportunidade para plataformas de…

5 dias ago

Notícias

Prêmio Executivo de TI do Ano 2026: conheça os critérios de avaliação

Continuam abertas as inscrições para o prêmio Executivo de TI do Ano 2026. A iniciativa,…

5 dias ago

Modelos da OpenAI “decoraram” conteúdos protegidos por direitos autorais, aponta estudo

Reprodução idêntica

Related Post

Recent Posts

Com a IA, setor de saúde vive revolução que o marketing digital proporcionou há dez anos

Snowflake registra crescimento de 33% na receita e eleva projeções para o ano fiscal de 2027

UE ordena que Meta reabra WhatsApp a chatbots rivais

IPO da SpaceX chega ao mercado como aposta de US$ 1,75 trilhão em IA, não em foguetes

IA muda jornada de compra e devolve relevância aos sites de avaliação B2B, diz Forrester

Prêmio Executivo de TI do Ano 2026: conheça os critérios de avaliação