- Bots causam 65% das requisições mais pesadas da Wikimedia.
- Raspagem ignora regras e afeta serviços e estabilidade.
- Wikimedia propõe limites e uso consciente de infraestrutura.
A Wikimedia Foundation emitiu um alerta sobre o impacto da raspagem de dados por bots de inteligência artificial em seus servidores. O aumento drástico de tráfego não humano elevou o consumo de largura de banda em 50% desde janeiro de 2024, prejudicando a estabilidade da infraestrutura e gerando altos custos técnicos e financeiros.
A fundação hospeda não apenas a Wikipédia, mas também plataformas como o Wikimedia Commons, que abriga mais de 144 milhões de arquivos sob licenças abertas. Embora o conteúdo seja livre, a infraestrutura para mantê-lo online exige investimento. Bots automatizados, usados por empresas para treinar modelos de linguagem, têm drenado recursos ao fazer downloads em massa e ignorar diretrizes como o arquivo robots.txt.
Bots acessam conteúdo indiscriminadamente e geram sobrecarga técnica no Wikimedia
A Wikimedia destacou no blog oficial que os bots respondem por 65% das solicitações mais custosas à infraestrutura, mesmo representando apenas 35% das visualizações de páginas. Esses robôs vasculham artigos menos acessados e arquivos de mídia pesados, forçando os servidores principais a atendê-los diretamente — o que invalida os sistemas de cache otimizados para humanos.
A fundação relatou um caso emblemático: durante a morte do ex-presidente Jimmy Carter, em dezembro de 2024, milhões acessaram sua página. Porém, o maior impacto veio quando usuários transmitiram um vídeo de 1h30 hospedado no Commons. O tráfego, já saturado por bots, não conseguiu suportar o pico de demanda.
Muitos rastreadores burlam regras de acesso, mascaram-se como navegadores comuns e até usam IPs residenciais. Isso obriga a equipe da Wikimedia a operar em estado constante de defesa, sacrificando tempo que poderia ser dedicado a melhorias ou suporte à comunidade.
Para lidar com o problema, a fundação lançou a iniciativa WE5: Responsible Use of Infrastructure, que busca orientar desenvolvedores de IA para práticas mais sustentáveis. A proposta inclui uso de APIs específicas, financiamento colaborativo de infraestrutura e padrões de acesso menos agressivos.
A fundação reconhece o valor do conteúdo aberto para o avanço da IA, mas adverte que, embora o conteúdo seja livre, a infraestrutura não é.
A crítica também vem ao encontro de ações recentes das empresas de IA, como OpenAI e Google, que querem acesso a material com direitos protegidos para treinamento de IA.