2017-08-23 6 views
0

J'interroge toutes les histoires de révision pour chaque page wikipedia. J'ai téléchargé le dump du wiki pour la liste des titres de pages dans l'espace de noms principal du lien https://dumps.wikimedia.org/enwiktionary/20170320/ Cependant, il semble qu'il y ait plus de 12 000 000 titres de la décharge que j'ai téléchargée, ce qui est beaucoup plus que ce que wikipedia a rapporté. Quelqu'un peut-il me dire ce qui se passe? Est-ce que j'utilise le vidage correct?Wiki Dump pour tous les titres dans Mainspace est bien plus que ce que Wikipédia a signalé

La raison pour laquelle je demande est qu'il semble qu'il faudra quelques centaines de jours pour obtenir tous les historiques de révision si je interroge l'historique fournissant les titres de l'article. Donc, s'il existe de meilleurs moyens d'extraire les historiques de révision, cela sera également très utile.

Répondre

1

Tout d'abord, il s'agit d'un vidage de pages dans Wiktionary. id Wikipedia est enwiki, mais même avec la décharge droite rendant le compte correspondance prend quelques efforts:

  • Certaines pages sont redirects
  • Certaines pages ne sont pas comptés comme des pages de contenu valides et sont donc exclus du official statistics. Pour être considérée comme valide, une page doit contenir au moins un lien interne.