“
A Wikipédia tem enfrentado dificuldades com o impacto de crawlers de IA – bots que extraem texto e multimídia da enciclopédia para treinar modelos de inteligência artificial generativa. Isso tem gerado aumento de custos e lentidão para os usuários humanos. Em uma possível tentativa de deter esses bots de sobrecarregar o site público da Wikipédia e consumir muita largura de banda, a Wikimedia Foundation (que gerencia os dados da Wikipédia) está oferecendo aos desenvolvedores de IA um conjunto de dados que podem usar livremente.
A organização se uniu ao Kaggle, uma plataforma de ciência de dados, para oferecer uma versão beta de um conjunto de dados estruturados em inglês e francês. De acordo com o Google, proprietário do Kaggle, o conjunto de dados é formatado para aprendizado de máquina, tornando-o mais útil para treinamento, desenvolvimento e ciência de dados. O dataset inclui resumos, descrições curtas, dados de chave-valor em estilo infobox, links de imagem e seções de artigos claramente segmentadas. No entanto, não há referências ou outros elementos não-prosa, como clipes de vídeo. A ausência de referências pode tornar a questão da atribuição de informações no conjunto de dados um pouco nebulosa. Apesar disso, a Wikimedia Enterprise afirma que o conteúdo do conjunto de dados possui licença Creative Commons, domínio público e similares, já que tudo vem da Wikipédia.
“