Wikipédia diz que Bots de IA estão sobrecarregam seus servidores

Por Luciano Rodrigues
Imagem: Dall-E

Desconto imperdíveis no canal oficial de Ofertas no Whatsapp

  • Bots causam 65% das requisições mais pesadas da Wikimedia.
  • Raspagem ignora regras e afeta serviços e estabilidade.
  • Wikimedia propõe limites e uso consciente de infraestrutura.

A Wikimedia Foundation emitiu um alerta sobre o impacto da raspagem de dados por bots de inteligência artificial em seus servidores. O aumento drástico de tráfego não humano elevou o consumo de largura de banda em 50% desde janeiro de 2024, prejudicando a estabilidade da infraestrutura e gerando altos custos técnicos e financeiros.

A fundação hospeda não apenas a Wikipédia, mas também plataformas como o Wikimedia Commons, que abriga mais de 144 milhões de arquivos sob licenças abertas. Embora o conteúdo seja livre, a infraestrutura para mantê-lo online exige investimento. Bots automatizados, usados por empresas para treinar modelos de linguagem, têm drenado recursos ao fazer downloads em massa e ignorar diretrizes como o arquivo robots.txt.

Bots acessam conteúdo indiscriminadamente e geram sobrecarga técnica no Wikimedia

A Wikimedia destacou no blog oficial que os bots respondem por 65% das solicitações mais custosas à infraestrutura, mesmo representando apenas 35% das visualizações de páginas. Esses robôs vasculham artigos menos acessados e arquivos de mídia pesados, forçando os servidores principais a atendê-los diretamente — o que invalida os sistemas de cache otimizados para humanos.

A fundação relatou um caso emblemático: durante a morte do ex-presidente Jimmy Carter, em dezembro de 2024, milhões acessaram sua página. Porém, o maior impacto veio quando usuários transmitiram um vídeo de 1h30 hospedado no Commons. O tráfego, já saturado por bots, não conseguiu suportar o pico de demanda.

Muitos rastreadores burlam regras de acesso, mascaram-se como navegadores comuns e até usam IPs residenciais. Isso obriga a equipe da Wikimedia a operar em estado constante de defesa, sacrificando tempo que poderia ser dedicado a melhorias ou suporte à comunidade.

CONTINUA APÓS A PUBLICIDADE

Para lidar com o problema, a fundação lançou a iniciativa WE5: Responsible Use of Infrastructure, que busca orientar desenvolvedores de IA para práticas mais sustentáveis. A proposta inclui uso de APIs específicas, financiamento colaborativo de infraestrutura e padrões de acesso menos agressivos.

A fundação reconhece o valor do conteúdo aberto para o avanço da IA, mas adverte que, embora o conteúdo seja livre, a infraestrutura não é.

A crítica também vem ao encontro de ações recentes das empresas de IA, como OpenAI e Google, que querem acesso a material com direitos protegidos para treinamento de IA.

Compartilhe:
Siga:
Jornalista, assessor de comunicação, escritor e comunicador, com MBA em jornalismo digital e 12 anos de experiência, tendo passado também por alguns veículos no setor tech.
Sair da versão mobile