Wikimedia lança dados otimizados para IA para evitar sobrecarga da Wikipedia

Por Luciano Rodrigues
Imagem: Dall-E
Economize com Tech2 Ofertas
    • Wikimedia lança dados estruturados para treinar modelos de IA.
    • Kaggle hospeda conteúdo otimizado da Wikipédia com licença aberta.
    • Iniciativa combate raspagem excessiva e amplia acesso ético a dados.

A Wikipédia deu um passo estratégico para lidar com o crescimento do uso de seus conteúdos por desenvolvedores de inteligência artificial.

A Fundação Wikimedia anunciou uma parceria com a Kaggle, plataforma de ciência de dados do Google, para lançar um conjunto de dados beta. Com conteúdo estruturado da Wikipédia em inglês e francês, o objetivo é diretamente voltado ao treinamento de modelos de IA.

O novo recurso tem como objetivo reduzir o uso excessivo dos servidores da enciclopédia por robôs de raspagem, oferecendo aos desenvolvedores uma alternativa eficiente e ética. Dessa forma, o conteúdo, licenciado de forma aberta, já inclui resumos, descrições curtas, dados de infoboxes, seções organizadas de artigos e links de imagens. Arquivos como áudios e referências completas, por exemplo, foram excluídos.

Assim, ao invés de depender de raspagem de texto bruto, os desenvolvedores agora podem acessar representações JSON bem estruturadas, otimizadas para fluxos de trabalho de aprendizado de máquina. A princípio, a iniciativa visa beneficiar desde grandes empresas até cientistas de dados independentes, promovendo acesso justo sem prejudicar a infraestrutura da Wikipédia.

Kaggle é mais um parceiro da Wikimedia

Com o novo repositório, a Kaggle reforça seu papel como referência para quem trabalha com machine learning. A líder de parcerias da empresa, Brenda Flynn, comemorou o acordo:

CONTINUA APÓS A PUBLICIDADE

Como o local onde a comunidade de aprendizado de máquina busca ferramentas e testes, o Kaggle está extremamente entusiasmado em hospedar os dados da Fundação Wikimedia. O Kaggle já é um dos principais lugares para encontrar conjuntos de dados, e existem poucos conjuntos de dados abertos que têm mais impacto do que aqueles hospedados pela Fundação Wikimedia. O Kaggle está entusiasmado em desempenhar um papel importante para manter esses dados acessíveis, disponíveis e úteis.

Além de Google e Internet Archive, que já mantêm acordos com a Wikimedia, o envolvimento da Kaggle promete tornar o acesso aos dados mais simples, direto e seguro, incentivando práticas responsáveis na formação de novos modelos de linguagem.

Dessa forma, a Wikimedia aposta em um equilíbrio entre acesso aberto à informação e sustentabilidade técnica da plataforma, sem abrir mão da transparência e da missão colaborativa da Wikipédia.

Compartilhe:
Siga:
Jornalista, assessor de comunicação, escritor e comunicador, com MBA em jornalismo digital e 12 anos de experiência, tendo passado também por alguns veículos no setor tech.
Sair da versão mobile