Uma proposta de ação coletiva movida pela autora do Oregon, Elizabeth Lyon, acusa a Adobe de treinar seu modelo SlimLM AI em livros piratas, incluindo seus guias, por meio do conjunto de dados SlimPajama-627B derivado da coleção RedPajama contendo Books3. A Adobe buscou um amplo desenvolvimento em inteligência artificial nos últimos anos. A empresa lançou vários serviços de IA a partir de 2023, com Firefly servindo como seu conjunto de geração de mídia alimentado por IA, projetado para criar imagens, vídeos e outros conteúdos de mídia a partir de prompts e entradas de texto.
SlimLM representa uma série de modelos de linguagem pequena que a Adobe otimizou especificamente para tarefas de assistência a documentos em dispositivos móveis. Esses modelos permitem funções como resumir documentos, extrair informações importantes e fornecer ajuda contextual diretamente em aplicativos móveis. Adobe estados que pré-treinou o SlimLM usando o conjunto de dados SlimPajama-627B. Cérebros lançado este conjunto de dados em junho de 2023 como um recurso desduplicado, multicorpora e de código aberto destinado ao treinamento de grandes modelos de linguagem. O conjunto de dados agrega várias fontes de texto após remover duplicatas para melhorar a eficiência do treinamento e o desempenho do modelo. Elizabeth Lyon, especializada em guias para escrita de não ficção, iniciou o processo alegando que a Adobe incorporou versões piratas de vários livros, incluindo suas próprias obras, no processo de treinamento do SlimLM. A ação legal busca o status de ação coletiva para representar outros autores afetados. O processo detalha como o conjunto de dados SlimPajama se originou do conjunto de dados RedPajama, que inclui a coleção Books3 composta por 191.000 livros. Reuters primeiro relatado no arquivamento. A reclamação afirma literalmente: “O conjunto de dados SlimPajama foi criado copiando e manipulando o conjunto de dados RedPajama (incluindo a cópia de Books3).” Ele continua: “Assim, por ser uma cópia derivada do conjunto de dados RedPajama, SlimPajama contém o conjunto de dados Books3, incluindo as obras protegidas por direitos autorais do Requerente e dos membros da Classe.” Lyon argumenta que seus materiais protegidos por direitos autorais apareceram nesses dados de pré-treinamento sem seu consentimento ou compensação. O Books3 surgiu repetidamente em disputas legais no setor de IA, à medida que os desenvolvedores o utilizavam para treinar sistemas generativos de IA. A coleção contém textos digitalizados de vários gêneros e autores, tornando-se um corpus de treinamento abrangente, mas controverso. RedPajama, que incorpora Books3, também foi mencionado em vários processos judiciais.





