Bluesky está enfrentando um problema significativo de privacidade após um milhão de postagens públicas foram raspados de sua plataforma para treinamento em IA, de acordo com um 404Mídia relatório. O conjunto de dados, compilado por bibliotecário de aprendizado de máquina Daniel van Strien, da empresa de IA Hugging Face, foi planejado para uso em pesquisas relacionadas ao processamento de linguagem natural e análise de mídia social. Embora os representantes da Bluesky afirmem que a plataforma nunca treinará IA generativa nos dados do usuário, a natureza aberta de sua API a torna vulnerável a scrapers externos.
Bluesky enfrenta preocupações de privacidade por causa de postagens de usuários copiadas
O conjunto de dados em questão foi obtido através do Bluesky’s API Firehoseque fornece um fluxo agregado de atualizações de dados públicos, incluindo postagens, curtidas e seguidores. Van Strien pretendia usar esse conjunto de dados para impulsionar a pesquisa de aprendizado de máquina. No entanto, não incluía apenas o texto das postagens, mas também identificadores descentralizados (DIDs) e metadados dos usuários. Depois que reportagens da mídia destacaram o problema, o conjunto de dados foi rapidamente removido do Hugging Face devido à reação que gerou em relação à privacidade do usuário e à falta de consentimento.
Os usuários do Bluesky não forneceram permissão explícita para que suas postagens fossem utilizadas dessa maneira, embora as políticas do Bluesky não proíbam categoricamente tais ações. O cerne da controvérsia está na estrutura aberta da API do Bluesky, que permite que desenvolvedores terceirizados acessem livremente seus dados públicos. De acordo com uma declaração de um representante da Bluesky, “gostaríamos de encontrar uma maneira para os usuários da Bluesky comunicarem a organizações/desenvolvedores externos se eles consentem com isso”, indicando um esforço para aumentar o controle do usuário sobre o compartilhamento de dados no futuro.
Bluesky ganha 1,25 milhão de usuários após aumento eleitoral
Após a remoção do conjunto de dados, van Strien reconheceu a violação da transparência e do consentimento na sua abordagem de recolha de dados. “Peço desculpas por esse erro”, afirmou ele em uma postagem subsequente no Bluesky. Este incidente serve como um alerta para que os usuários entendam melhor que qualquer conteúdo compartilhado publicamente na plataforma é acessível a entidades externas. À medida que a plataforma continua a crescer – ultrapassando recentemente os 20 milhões de utilizadores – a Bluesky provavelmente enfrentará um escrutínio cada vez maior relativamente às suas medidas de protecção de dados e privacidade do utilizador.
A Bluesky está atualmente em discussões sobre mecanismos que poderiam permitir aos usuários expressar suas preferências de consentimento a terceiros. Contudo, a aplicação continua a ser um desafio; conforme observado pela plataforma, em última análise, caberá aos desenvolvedores externos aderir a essas preferências. Os representantes da Bluesky transmitiram adicionalmente que, embora pretendam discutir com engenheiros e equipes jurídicas, não há soluções imediatas disponíveis.
Crédito da imagem em destaque: Céu Azul