Reddit processa Perplexity por suposta coleta de dados em grande escala

Reddit tem arquivado uma ação judicial contra a empresa de mecanismo de resposta Perplexity e três provedores de serviços de coleta de dados, SerpApi, Oxylabs e AWMProxy. A ação legal visa impedir o que a reclamação do Reddit descreve como a evasão ilegal e em escala industrial de suas proteções de dados. A denúncia alega que a Perplexity é cliente de pelo menos uma dessas empresas de coleta de dados. O Reddit usa uma metáfora para descrever a suposta atividade, comparando os fornecedores a “pretensos ladrões de banco” que, incapazes de acessar diretamente o “cofre” de dados da empresa, visam o “caminhão blindado” que transporta as informações. Isto implica que os réus estão acessando o conteúdo do Reddit através de canais indiretos. O processo afirma que a Perplexity está optando por adquirir dados por esses meios, em vez de buscar um acordo de licenciamento direto, um caminho que alguns de seus concorrentes seguiram. De acordo com o processo judicial, o Reddit emitiu uma carta de cessação e desistência à Perplexity em maio de 2024, exigindo que ela parasse de extrair dados da plataforma. Após a entrega desta carta, o volume de citações do Reddit que aparecem no serviço da Perplexity supostamente aumentou. Para investigar mais a fundo, o Reddit criou uma postagem em sua plataforma que foi configurada para ser rastreável apenas pelo Google. A empresa afirma que “em poucas horas”, o mecanismo de resposta do Perplexity “produziu o conteúdo” desta postagem específica. O Reddit afirma que a única maneira pela qual a Perplexity poderia ter adquirido esse conteúdo seria se ela, ou seus co-réus, coletassem os resultados de pesquisa do Google para conteúdo do Reddit e o integrassem rapidamente em seu sistema.

Samsung lança aplicativo Perplexity TV com Vision AI

O conteúdo gerado pelo usuário da plataforma, que consiste em postagens escritas e classificadas por humanos em uma vasta gama de assuntos, tornou-se um recurso valioso para o treinamento de modelos de inteligência artificial. Em 2023, o Reddit implementou mudanças na API que geraram protestos de usuários; a empresa posicionou essas mudanças como uma forma de garantir que fosse compensada pelo uso de seus dados pelos desenvolvedores de IA. Desde então, o Reddit garantiu acordos de licenciamento de dados com empresas como OpenAI e Google e está buscando acordos adicionais. Este não é o primeiro desafio legal do Reddit nesta área; já processou a Anthropic, alegando que seus bots continuaram a acessar o site depois que a empresa declarou o contrário. Ben Lee, diretor jurídico do Reddit, descreveu a situação como uma “economia de ‘lavagem de dados’ em escala industrial” alimentada por uma “corrida armamentista de IA por conteúdo humano de qualidade”. Ele declarou: “Os raspadores contornam as proteções tecnológicas para roubar dados e depois os vendem para clientes ávidos por material de treinamento. O Reddit é um alvo principal porque é uma das maiores e mais dinâmicas coleções de conversas humanas já criadas”. Lee identificou os co-réus Oxylabs UAB, AWM Proxy e SerpAI como “exemplos clássicos desse comportamento ilegal”, descrevendo-os como um obscuro scraper lituano, um antigo botnet russo e uma empresa que anuncia táticas questionáveis. Ele acrescentou: “Incapazes de copiar o Reddit diretamente, eles mascaram suas identidades, ocultam suas localizações e disfarçam seus web scrapers para roubar conteúdo do Reddit da Pesquisa Google”. Em resposta à ação, o chefe de comunicação da Perplexity, Jesse Dwyer, afirmou que a empresa ainda não havia recebido o pedido judicial. Dwyer disse A beira“sempre lutaremos vigorosamente pelos direitos dos usuários de acesso livre e justo ao conhecimento público”. Ele acrescentou: “Nossa abordagem permanece baseada em princípios e responsável, pois fornecemos respostas factuais com IA precisa e não toleraremos ameaças contra a abertura e o interesse público”.

Crédito da imagem em destaque