Reddit bloqueia arquivo da Internet em meio a preocupações com a coleta de dados de IA

O Reddit anunciou que restringirá o acesso à maior parte de seu conteúdo, citando preocupações sobre as empresas de IA que exploram o serviço de preservação digital para coletar dados em violação às políticas da plataforma.

A mudança limita significativamente quais partes do Reddit podem ser arquivadas para referência futura.

Principais restrições de acesso implementadas

O gigante da mídia social agora bloqueará o Internet Archive de indexar páginas de detalhes de postagens, comentários e perfis de usuários.

Apenas a página inicial do Reddit permanecerá acessível ao Wayback Machine, limitando efetivamente o arquivo a capturar quais manchetes e postagens estavam em alta em datas específicas, em vez de preservar o contexto completo das discussões e interações do usuário, de acordo com um relatório por TheVerge.

“O Internet Archive fornece um serviço para a web aberta, mas fomos informados de casos em que as empresas de IA violam as políticas da plataforma, incluindo a nossa, e coletam dados do Wayback Machine”, explicou o porta-voz do Reddit, Tim Rathschmidt.

As restrições começaram a aumentar recentemente, com o Reddit fornecendo aviso prévio ao Internet Archive antes da implementação.

A decisão do Reddit decorre do que considera uma proteção inadequada dos dados do usuário no conteúdo arquivado.

A empresa expressou preocupação particular com a incapacidade do Internet Archive de cumprir certas políticas da plataforma, incluindo o respeito à privacidade do usuário, removendo o conteúdo excluído das versões arquivadas.

“Até que eles sejam capazes de defender seu site e cumprir as políticas da plataforma (por exemplo, respeitar a privacidade do usuário, re: excluir conteúdo removido), estamos limitando parte de seu acesso aos dados do Reddit para proteger os redditors”, afirmou Rathschmidt.

Este último movimento continua a estratégia mais ampla do Reddit de monetizar e controlar o acesso aos seus dados, à medida que as empresas de IA buscam cada vez mais material de treinamento.

A plataforma fechou um acordo lucrativo com Pesquise no Google para indexação de pesquisa e dados de treinamento de IA no ano passado, ao mesmo tempo em que bloqueiam outros grandes mecanismos de pesquisa, a menos que paguem pelo acesso.

As controversas mudanças na API do Reddit em 2023, que forçaram o fechamento de vários aplicativos populares de terceiros e geraram protestos generalizados de usuários, também foram justificadas como necessárias para evitar o treinamento não autorizado de IA no conteúdo do Reddit.

A empresa adotou uma abordagem dupla para parcerias de IA, assinando acordos com a OpenAI para acesso a conteúdo enquanto busca ações legais contra terceiros.

Em junho, o Reddit processou a Anthropic, alegando que a empresa de IA continuou coletando dados do Reddit, apesar das alegações de que havia interrompido tais práticas.

Mark Graham, diretor da Wayback Machine, reconheceu a situação diplomaticamente, afirmando: “Temos um relacionamento de longa data com o Reddit e continuamos a ter discussões contínuas sobre esse assunto”.

As restrições representam uma mudança significativa na forma como a preservação digital opera em uma era em que o conteúdo arquivado se tornou dados valiosos de treinamento para sistemas de inteligência artificial, levantando questões sobre o equilíbrio entre preservação histórica e direitos de dados.

Ache esta notícia interessante! Siga-nos noGoogle Notícias,LinkedIneXpara obter atualizações instantâneas!