2010-12-09 5 views
1

Je construis une application qui vous permet de sélectionner des sujets que vous aimez, ces sujets doivent être en DB.Liste des pages de wikipedia

Il y a des millions de 'j'aime'! (pizza, PHP, manchester united, n'importe quel film .. je ne sais pas), j'ai donc décidé d'insérer ces 'j'aime' dans ma BD avec Wikipedia.

Eh bien, il y a un moyen d'obtenir tous ces 'j'aime' (avec l'API j'ai une limite [500 par recherche je pense)? ou une autre solution?

Merci beaucoup.

+1

Je veux juste obtenir la liste des pages de wikipedia. Dans mon site Web, l'utilisateur peut sélectionner des choses qu'il aime. (de la liste) – Luis

+0

Je suis assez sûr qu'il y aura des dizaines de fans de: http://en.wikipedia.org/wiki/23155_Judithblack ou de http://en.wikipedia.org/wiki/California_Secretary_of_State_election,_2006 – Mchl

+0

Pourquoi? ne pas le faire de la manière habituelle, c'est à dire laisser les utilisateurs entrer manuellement de nouveaux likes, s'ils ne peuvent pas trouver quelque chose sur la liste des existants? – Mchl

Répondre

1

Jetez un coup d'œil à la documentation technique de WikiMedia. Il y a une section qui parle de query continuation. Alternativement, vous pouvez télécharger un vidage Wikipédia, installer votre propre copie de WikiMedia et interroger le contenu de votre cœur. Les vidages sont énormes, mais en fonction de la quantité de choses que vous voulez extraire, cela peut finir la tâche plus rapidement et avec moins d'impact sur le service Wikipedia.

+0

Existe-t-il un moyen d'obtenir simplement la liste des titres de pages, sans télécharger l'intégralité du vidage XML? –

1

Les informations que vous tentez de récupérer sur Wikipédia sont un peu floues. Titres de page?

Wikimedia fournit des fichiers XML contenant tous les titres de page pour tous leurs projets au download.wikimedia.org. (Malheureusement, les décharges semblent être actuellement indisponibles en raison de problèmes matériels). Vous pouvez analyser le fichier XML et stocker tous les titres dans votre propre base de données.

+0

Sera-t-il disponible? :-) Parce que je pense que sa longue période indisponible .. – Luis

0

Des décharges sont disponibles sur wikipedia dans différents formats, avec différents niveaux de détails.

Choisissez celui qui correspond le mieux à vos besoins et l'analyser.

+0

Vous voulez dire http://en.wikipedia.org/wiki/Wikipedia:Database_download? les liens ne fonctionnent pas. – Luis

+0

@Paul: Je suis intéressé par une telle décharge 'avec différents niveaux de détails'. Pouvez-vous fournir un lien? – Hugolpz