Dezenas de sites de notícias já bloqueiam a Wayback Machine

Tecnoblog
Dezenas de sites de notícias já bloqueiam a Wayback Machine
Resumo
  • Pelo menos 23 grandes sites de notícias bloqueiam o robô do Internet Archive, com restrições em vários níveis de acesso.
  • Veículos como o New York Times alegam violação de direitos autorais e uso das páginas arquivadas para treinar IAs.
  • Mais de 100 jornalistas assinaram carta em defesa do serviço, citando risco de desaparecimento progressivo de registros digitais.

Grandes veículos de comunicação estão restringindo o acesso de sites de arquivamento online. O movimento atinge diretamente o Internet Archive e compromete a Wayback Machine, ferramenta que há quase três décadas registra versões antigas de páginas da internet e sustenta parte importante da verificabilidade do conteúdo online.

Segundo análise da Originality AI, pelo menos 23 grandes sites de notícias já bloqueiam o ia_archiverbot, robô responsável por coletar e preservar essas páginas. Entre eles está o grupo USA Today Co., que reúne mais de 200 veículos — o que amplia de forma significativa o alcance dessa restrição.

Apesar do posicionamento de alguns dos grandes veículos de mídia, mais de 100 jornalistas já assinaram uma carta em defesa do Internet Archive, alertando para o risco de desaparecimento progressivo de registros digitais.

Medo de treinamento de IAs

A decisão ganhou força nos últimos meses com o avanço da inteligência artificial. Nos bastidores, cresce o receio de que conteúdos arquivados pelo Internet Archive estejam sendo utilizados para treinar modelos de linguagem.

O New York Times está entre os veículos que defendem essa posição. A empresa argumenta que o uso de material arquivado pode violar direitos autorais e alimentar produtos que competem diretamente com o jornalismo original. Para que o uso seja possível, o jornal exige que as empresas de tecnologia façam acordos com os veículos de comunicação.

Os bloqueios variam em intensidade. Enquanto o próprio NYT e plataformas como o Reddit optaram por impedir completamente o acesso, outros, como o britânico The Guardian, permitem o rastreamento, mas restringem o acesso público ao conteúdo.

No Brasil, os principais jornais que operam plataformas online não aderiram ao boicote. Sites dos grupos Globo, Folha de São Paulo, Estado de São Paulo e gigantes regionais como o Correio de Pernambuco e Zero Hora, por exemplo, não possuem restrições ao arquivo no robots.txt, ainda que muitos não permitam a raspagem por agentes de IA.

Impacto na transparência e no registro histórico

O avanço dessas restrições tem efeitos diretos sobre a transparência da informação. A possibilidade de consultar versões anteriores de uma página é uma das principais formas de rastrear alterações, verificar declarações públicas ou identificar revisões não sinalizadas.

O portal Gadget Review relembra que, em 2016, o Internet Archive expôs uma edição não sinalizada feita pelo New York Times em um artigo sobre Bernie Sanders.

Esse movimento de restrição já vinha sendo observado desde o início do ano. Em janeiro, um levantamento do Nieman Lab, da Universidade Harvard, apontava o crescimento das limitações ao arquivamento.

Pouco depois, em fevereiro, o diretor da Wayback Machine, Mark Graham, criticou publicamente a tendência, afirmando que impedir o registro de páginas pode causar “danos históricos”.