Alegação: NVIDIA dá luz verde para downloads de livros piratas para treinamento de IA

Os executivos da NVIDIA autorizaram o uso de milhões de livros piratas do Anna's Archive para treinamento em IA, de acordo com uma ação coletiva ampliada. O processo, citando documentos internos da NVIDIA, alega que a empresa contatou o Anna's Archive para obter acesso de alta velocidade aos seus dados. A NVIDIA se beneficiou do boom da inteligência artificial, com aumento de receitas devido à alta demanda por seus chips de aprendizagem de IA e serviços de data center. A NVIDIA desenvolve seus próprios modelos de IA, incluindo NeMo, Retro-48B, InstructRetro e Megatron. Esses modelos são treinados usando hardware NVIDIA e grandes bibliotecas de texto, semelhante às práticas de outras empresas de tecnologia. A empresa enfrentou desafios legais de detentores de direitos autorais em relação às suas metodologias de treinamento. Os autores processaram a NVIDIA pela primeira vez no início de 2024 por violação de direitos autorais, alegando que os modelos de IA da empresa foram treinados no conjunto de dados Books3, que incluía obras protegidas por direitos autorais da Bibliotik sem permissão. A NVIDIA defendeu suas ações como uso justo, afirmando que os livros são correlações estatísticas com seus modelos de IA. No entanto, novas evidências surgiram durante a descoberta. Os demandantes apresentaram uma reclamação alterada na última sexta-feira, ampliando o escopo do processo ao adicionar mais livros, autores e modelos de IA. A reclamação alterada inclui reivindicações mais amplas de “biblioteca paralela”. Autores, incluindo Abdi Nazemian, agora citam e-mails e documentos internos da NVIDIA, alegando que a empresa baixou voluntariamente milhões de livros protegidos por direitos autorais. A reclamação afirma que “as pressões competitivas levaram a NVIDIA à pirataria”, envolvendo a colaboração com o Anna’s Archive. De acordo com a reclamação alterada, um membro da equipe de estratégia de dados da NVIDIA contatou o Anna’s Archive para perguntar sobre a aquisição de seus materiais piratas para pré-treinamento de grandes modelos de linguagem, incluindo o Anna’s Archive. A reclamação afirma que o Anna’s Archive cobrou dezenas de milhares de dólares por “acesso de alta velocidade” às suas coleções, e a NVIDIA buscou detalhes sobre esse acesso. A denúncia alega que o Anna's Archive alertou a NVIDIA que o conteúdo de sua biblioteca foi adquirido e mantido ilegalmente. O Arquivo de Anna supostamente pediu aos executivos da NVIDIA permissão interna para prosseguir, que foi concedida dentro de uma semana. Depois de receber permissão da administração da NVIDIA, o Anna's Archive forneceu acesso aos seus livros piratas. O Anna's Archive ofereceu à NVIDIA acesso a aproximadamente 500 terabytes de dados, incluindo milhões de livros normalmente disponíveis através do sistema de empréstimo digital do Internet Archive. A reclamação não especifica se a NVIDIA pagou o arquivo de Anna. A NVIDIA também enfrenta acusações de uso de outras fontes piratas, incluindo LibGen, Sci-Hub e Z-Library, além do banco de dados Books3. Os autores alegam que a NVIDIA não apenas baixou e usou livros piratas para seu treinamento em IA, mas também distribuiu scripts e ferramentas que permitem aos clientes corporativos baixar “The Pile”, que contém o conjunto de dados pirata Books3. Essas alegações introduzem novas alegações de violação vicária e contributiva, afirmando que a NVIDIA gerou receita dos clientes ao facilitar o acesso a esses conjuntos de dados piratas. Os autores buscam indenização por danos aos autores nomeados e potencialmente a centenas de outros que aderiram à ação coletiva. Esta revelação marca a primeira divulgação pública de correspondência entre uma grande empresa de tecnologia dos EUA e o Anna's Archive. A primeira denúncia consolidada e alterada, arquivado no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, nomeia os autores Abdi Nazemian, Brian Keene, Stewart O'Nan, Andre Dubus III e Susan Orlean.

Crédito da imagem em destaque

No Result