Quel serait le moyen le plus facile d'obtenir tous les articles sur les gens de Wikipedia? Je sais que je peux télécharger une décharge de toutes les pages, mais alors comment puis-je filtrer ceux et obtenir seulement ceux sur les gens? J'ai besoin de tout ce que je peux obtenir (de préférence plus d'un million) donc l'utilisation de n'importe quel type d'API n'est probablement pas une option.Comment obtenir tous les articles sur les gens de Wikipedia?
Répondre
Depuis des articles sur les gens contiennent généralement le modèle Persondata, vous pouvez simplement rechercher tous les articles qui contiennent Persondata. Vous pouvez trouver un exemple de requête API pour faire exactement cela ici:
Does the Wikipedia API support searches for a specific template?
Si vous voulez vous lancer seul, vous devez vous concentrer sur les données "infobox" dans l'image XML.
Référence: http://code.google.com/p/infobox2rdf/
Vous pouvez également extraira le http://www.freebase.com ou http://dbpedia.org
À partir de 2014, vous avez une autre option: la requête WikiData pour toutes les entités où la propriété instance of
(P31) a la valeur human
(Q5).
Liste complète des humains: https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5
A partir de cette liste, filtrer quelque chose qui ne dispose pas d'un sex or gender
(P21), pour se débarrasser des pages comme « scientifique »
De cette façon, vous ne besoin de garder une trace de quels modèles sont utilisés pour les personnes dans chaque édition de langue différente (il y a 285) de Wikipedia.
- 1. Confus, avec activerecord, comment obtenir tous les articles?
- 2. Comment obtenir les articles de CollectionViewSource?
- 3. Wordpress: afficher tous les articles d'un mois sur une page
- 4. Obtenir des informations sur Wikipedia - comment obtenir un formulaire HTML?
- 5. obtenir des informations de wikipedia
- 6. comment puis-je obtenir TOUS mes articles apparaissant sur la page d'accueil de magento 1.3.2?
- 7. Comment obtenir tous les UITableViewCell de UITableView?
- 8. comment rechercher tous les articles dans listview sans findstring
- 9. Obtenir le TreeViewItem sur les articles nouvellement créés
- 10. Comment obtenir tous les identifiants de forme?
- 11. Comment obtenir tous les résultats de regex?
- 12. Comment obtenir les derniers articles de manière distincte d'affilée?
- 13. supprimer tous les articles de set tried in grails
- 14. JavaFX - que pensent les gens?
- 15. Sélectionnez tous les articles de union mais pas le dernier!
- 16. Articles sur les schémas/algorithmes de réplication?
- 17. comment obtenir tous les marqueurs sur google-maps-v3
- 18. est-il possible de filtrer les liens d'un article wikipedia en une seule requête?
- 19. Obtenir les URL SEF pour les articles dans Joomla
- 20. Comment calculer le graphe de relation entre les gens?
- 21. Comment obtenir tous les liens Twitter?
- 22. Comment obtenir tous les CActiveRecords dans yii
- 23. Perl: Comment obtenir tous les modèles groupés
- 24. SharePoint 403 erreur pour les utilisateurs n'existent pas dans "Tous les gens"
- 25. jqGrid obtenir tous les ids
- 26. Obtenir une liste de tous les ID sur le site
- 27. Comment créer un flux ICalendar auquel les gens peuvent s'abonner
- 28. Rails 3 trouver tous les articles associés has_many: through
- 29. Comment lister tous les imagens sur l'appareil?
- 30. Obtenir des balises pour les articles de blog par programmation
Je ne sais vraiment pas ce que vous demandez, mis à part plus d'un million d'articles de Wikipédia sur les gens (ce qui n'est pas un sujet approprié pour SO). –
Que voulez-vous dire exactement? Demandez-vous des conseils sur la façon de mettre en œuvre une toile Web? –
Non, je ne pense pas spidering est approprié dans ce cas. Il est possible de télécharger un fichier de vidage de wikipedia. La question est de savoir comment filtrer le fichier de vidage XML et obtenir uniquement les pages qui concernent les personnes. – Johnny