Openai pode ter treinado sua IA em livros roubados

O OpenAI está enfrentando acusações de treinamento de seus modelos de IA em material protegido por direitos autorais sem permissão, como um novo papel alega que a empresa usou livros de paywall da O’Reilly Media para treinar seu modelo GPT-4O. O projeto de divulgação da IA, uma organização sem fins lucrativos co-fundada por Tim O’Reilly e Ilan Strauss, publicou o artigo.

Os modelos de IA funcionam como mecanismos de previsão, padrões de aprendizado de dados extensos, como livros e filmes, para extrapolar de prompts. Enquanto alguns laboratórios de IA estão usando dados gerados pela IA, à medida que as fontes do mundo real diminuem, o treinamento em dados puramente sintéticos carrega riscos, como impactar o desempenho de um modelo.

A metodologia do artigo, Descompactdetermina se um modelo distingue entre textos de autoria humana e Paráfrases geradas pela IA. Isso sugere se o modelo possui conhecimento prévio de seus dados de treinamento. Os pesquisadores investigaram o GPT-4O, o GPT-3.5 Turbo e outros modelos Openai, usando 13.962 trechos de 34 livros de O’Reilly para estimar a probabilidade de inclusão nos conjuntos de dados de treinamento.

Os resultados indicaram que o GPT-4O reconheceu significativamente mais conteúdo de livros O’Reilly do que modelos mais antigos como o GPT-3.5 Turbo. De acordo com o artigo, GPT-4O Provavelmente reconhece muitos livros não públicos de O’Reilly publicados antes de sua data de corte de treinamento. O’Reilly não possui um contrato de licenciamento com o Openai, de acordo com o jornal.

Os co-autores reconhecem que o método não é à prova de falhas e o OpenAI pode ter coletado trechos das entradas de bate-papo dos usuários. Outra ressalva é que os modelos OpenAI mais recentes, incluindo o GPT-4.5, não foram avaliados.

O OpenAI, defendendo restrições de direitos autorais mais frouxos, buscou dados de treinamento de maior qualidade, contratando jornalistas para ajustar as saídas do modelo. A empresa também possui acordos de licenciamento com editores de notícias e oferece mecanismos de exclusão para proprietários de direitos autorais. O Openai não comentou o jornal.

Crédito da imagem em destaque