A Universidade de Harvard, em colaboração com o Google, lançará um conjunto de dados de aproximadamente um milhão de livros de domínio público para uso no treinamento de modelos de IA, de acordo com COM FIO. Esta iniciativa, conhecida como Iniciativa de Dados Institucionais, garantiu financiamento da Microsoft e da OpenAI. O conjunto de dados inclui obras que não estão mais sob proteção de direitos autorais, extraídas dos extensos esforços de digitalização de livros do Google.
Harvard e Google fornecem um milhão de livros para treinamento em IA
O anúncio veio em 12 de dezembro de 2024, com o conjunto de dados, que abrange uma ampla gama de gêneros, idiomas e autores, incluindo figuras notáveis como Dickens, Dante e Shakespeare. O diretor executivo de Harvard para a iniciativa, Greg Leppert, enfatizou que o conjunto de dados visa “nivelar o campo de atuação”, permitindo acesso a laboratórios de pesquisa e startups de IA para aprimorar seus esforços de desenvolvimento de modelos de linguagem. O conjunto de dados é destinado a qualquer pessoa que queira treinar grandes modelos de linguagem (LLMs), embora a data de lançamento e o método específicos ainda não tenham sido divulgados.
À medida que as tecnologias de IA dependem cada vez mais de grandes quantidades de dados de texto, este conjunto de dados serve como um recurso crucial. Modelos fundamentais como o ChatGPT se beneficiam significativamente de dados de treinamento de alta qualidade. No entanto, a necessidade de dados tem causado desafios para empresas como a OpenAI, que enfrentam escrutínio jurídico sobre a utilização não autorizada de materiais protegidos por direitos de autor. Ações judiciais movidas por grandes editoras, incluindo o Wall Street Journal e o New York Times, destacam as tensões contínuas relacionadas ao uso de conteúdo e à violação de direitos autorais no treinamento em IA.
Embora o próximo conjunto de dados seja vantajoso, ainda não está claro se um milhão de livros será suficiente para atender às demandas de treinamento de modelos de IA, especialmente porque as referências contemporâneas e as gírias atualizadas não são abordadas nestes textos históricos. As empresas de IA continuarão a procurar fontes de dados adicionais, especialmente informações exclusivas ou atualizadas, para distinguir os seus modelos dos concorrentes.
- A Iniciativa de Dados Institucionais de Harvard visa fornecer dados acessíveis para o desenvolvimento de IA.
- O financiamento da Microsoft e OpenAI sustenta o projeto.
- O conjunto de dados inclui clássicos da literatura e textos menos familiares.
- Os modelos de IA requerem dados extensos; as controvérsias atuais envolvem os direitos de uso de dados.
Os desenvolvedores do setor de IA não estão limitados apenas a textos históricos. Várias plataformas, incluindo Reddit e X, começaram a restringir o acesso aos seus dados à medida que reconhecem o seu valor crescente. O Reddit firmou acordos de licenciamento com empresas como o Google, enquanto o X mantém acordos de conteúdo exclusivo para utilização de dados em tempo real. Esta mudança na acessibilidade dos conteúdos reflete o cenário competitivo em que as empresas de IA lutam para adquirir dados de formação adequados e relevantes sem enfrentar repercussões legais.
A execução da Iniciativa de Dados Institucionais é um passo no sentido de aliviar estas pressões, fornecendo um conjunto de textos históricos juridicamente seguros, permitindo a formação responsável de modelos. No entanto, ainda serão necessárias estratégias abrangentes para garantir que os modelos de IA sejam competitivos e capazes de compreender a linguagem e as referências contemporâneas.
A eficácia com que este recurso irá satisfazer a procura contínua de dados abrangentes e diversificados continua a ser uma questão à medida que as investigações sobre a utilização de dados continuam.
Crédito da imagem em destaque: Bancos de argila/Unsplash