Advogados do The New York Times e do Daily News afirmam que a OpenAI excluiu inadvertidamente dados cruciais relacionados ao seu processo de direitos autorais contra a empresa em relação ao uso não autorizado de seu conteúdo, de acordo com um TechCrunch relatório. O incidente ocorreu depois que a OpenAI concordou em fornecer acesso aos seus conjuntos de dados de treinamento para ajudar os demandantes a verificar o uso de seus materiais protegidos por direitos autorais.
O processo alega que a OpenAI copiou artigos do The New York Times e do Daily News sem obter permissão para treinar seus modelos. Em resposta ao processo, a OpenAI forneceu duas máquinas virtuais para os advogados dos editores pesquisarem seus dados de treinamento em busca de conteúdo protegido por direitos autorais. Desde 1º de novembro, as equipes jurídicas dedicaram mais de 150 horas a essa busca. No entanto, em 14 de novembro, os engenheiros da OpenAI apagaram por engano todos os dados de pesquisa armazenados em uma das máquinas virtuais, conforme observado em um documento apresentado ao Tribunal Distrital dos EUA para o Distrito Sul de Nova York.
As tentativas da OpenAI de recuperar os dados excluídos foram em sua maioria bem-sucedidas, mas a perda da estrutura de pastas e dos nomes dos arquivos tornou os dados recuperados inutilizáveis no rastreamento de onde os artigos dos demandantes foram incluídos no treinamento da IA. A carta apresentada pelo advogado dos demandantes enfatizou que eles tiveram que reconstruir seu trabalho, consumindo muitos recursos e tempo.
Apesar da exclusão dos dados, o advogado esclareceu que não há indícios de que o incidente tenha sido intencional. Eles expressaram preocupação com o fato de a OpenAI estar idealmente posicionada para pesquisar seus próprios conjuntos de dados, indicando a obrigação de auxiliar na investigação de possíveis violações de direitos autorais.
OpenAI acaba de tornar o macOS mais inteligente com suporte ao aplicativo ChatGPT
A OpenAI afirma que o uso de dados disponíveis publicamente para treinar seus modelos se enquadra no “uso justo”. A empresa afirma que não precisa licenciar ou compensar estes conteúdos, mesmo que lucre com os seus produtos de IA. No entanto, a OpenAI celebrou acordos de licenciamento com vários editores, incluindo nomes proeminentes como Associated Press e Financial Times. Embora os termos específicos destes acordos permaneçam não divulgados, é relatado que Dotdash, um dos parceiros, recebe pelo menos 16 milhões de dólares anualmente.
As implicações potenciais deste caso e de outros semelhantes poderiam remodelar o cenário de uso de conteúdo e licenciamento para treinamento em IA. A abordagem da OpenAI de usar artigos de notícias para treinamento de modelos sem permissão explícita levanta questões sobre a aplicabilidade da lei de direitos autorais na era da inteligência artificial. As investigações sobre as circunstâncias da eliminação dos dados estão em curso, destacando as complexidades da situação.
A OpenAI ainda não emitiu uma declaração abordando o incidente ou suas implicações no relacionamento com os demandantes.
Crédito da imagem em destaque: Jonathan Kemper/Unsplash