2010-10-25 2 views
11

Quel serait le moyen le plus facile d'obtenir tous les articles sur les gens de Wikipedia? Je sais que je peux télécharger une décharge de toutes les pages, mais alors comment puis-je filtrer ceux et obtenir seulement ceux sur les gens? J'ai besoin de tout ce que je peux obtenir (de préférence plus d'un million) donc l'utilisation de n'importe quel type d'API n'est probablement pas une option.Comment obtenir tous les articles sur les gens de Wikipedia?

+0

Je ne sais vraiment pas ce que vous demandez, mis à part plus d'un million d'articles de Wikipédia sur les gens (ce qui n'est pas un sujet approprié pour SO). –

+0

Que voulez-vous dire exactement? Demandez-vous des conseils sur la façon de mettre en œuvre une toile Web? –

+0

Non, je ne pense pas spidering est approprié dans ce cas. Il est possible de télécharger un fichier de vidage de wikipedia. La question est de savoir comment filtrer le fichier de vidage XML et obtenir uniquement les pages qui concernent les personnes. – Johnny

Répondre

5

À partir de 2014, vous avez une autre option: la requête WikiData pour toutes les entités où la propriété instance of (P31) a la valeur human (Q5).

Liste complète des humains: https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5

A partir de cette liste, filtrer quelque chose qui ne dispose pas d'un sex or gender (P21), pour se débarrasser des pages comme « scientifique »

De cette façon, vous ne besoin de garder une trace de quels modèles sont utilisés pour les personnes dans chaque édition de langue différente (il y a 285) de Wikipedia.

Questions connexes