Relatório acusa a OpenAI de usar cada vez mais obras que não são públicas e que não foram licenciadas para o treinamento do ChatGPT


Tudo sobre ChatGPT

Tudo sobre Inteligência Artificial

Tudo sobre OpenAI
Empresas como a OpenAI, dona do ChatGPT, foram acusadas de usar conteúdo protegido por direitos autorais para treinar seus modelos de inteligência artificial.
Mas agora, um relatório divulgado pela AI Disclosures Project faz uma revelação importante sobre o tema.
A organização de vigilância de IA afirma que a companhia tem usado cada vez mais obras que não são públicas e que não foram licenciadas para o processo. Isso pode aumentar o número de processos judiciais relacionados ao assunto.
Companhia de mídia dos EUA estaria sendo utilizada
- Os modelos de IA são treinados com uma grande quantidade de dados.
- Todos os resultados apresentados pela ferramenta são embasados em alguma obra que foi utilizada durante o seu treinamento.
- Por isso, um chatbot não cria nada novo.
- Ele apenas usa sua imensa biblioteca para responder ao que é pedido.
- O novo artigo afirma que a OpenAI provavelmente treinou seu modelo GPT-4o em livros da O’Reilly Media, uma companhia de mídia dos EUA.

Leia mais
Como se chegou a esta conclusão
Os pesquisadores usaram um método chamado DE-COP, introduzido pela primeira vez em um estudo acadêmico em 2024, projetado para detectar conteúdo protegido por direitos autorais nos dados de treinamento dos modelos de linguagem.
Também conhecido como “ataque de inferência de associação”, ela testa se um modelo pode distinguir de forma confiável textos de autoria humana de versões parafraseadas geradas por IA do mesmo texto. Se puder, isso sugere que o modelo pode ter conhecimento prévio do texto a partir de seus dados de treinamento.

Os coautores do artigo – O’Reilly, Strauss e o pesquisador de IA Sruly Rosenblat – dizem que investigaram o conhecimento do GPT-4o, GPT-3.5 Turbo e de outros modelos da OpenAI sobre os livros da O’Reilly Media. Eles usaram 13.962 trechos de parágrafos de 34 livros para estimar a probabilidade de que um determinado trecho tenha sido incluído no conjunto de dados de treinamento de um modelo.
Os resultados apontam que o GPT-4o “reconheceu” muito mais conteúdo de livros da O’Reilly pago do que os modelos mais antigos da OpenAI, especificamente o GPT-3.5 Turbo. A OpenAI não se pronunciou sobre o caso até o momento.

Colaboração para o Olhar Digital
Alessandro Di Lorenzo é colaboração para o olhar digital no Olhar Digital

Bruno Capozzi é jornalista formado pela Faculdade Cásper Líbero e mestre em Ciências Sociais pela PUC-SP, tendo como foco a pesquisa de redes sociais e tecnologia.
Leave a Comment