2016-10-03 1 views
-1

J'essaie de trouver un vidage wikipedia contenant pageIds et Titles. Je ne veux pas le demander à l'exécution ou demander 2000 par demande, je le veux TOUS, je veux faire une longue liste de tous les pageIds et les titres qui leur appartiennent et les mettre dans ma propre base de données, afin que je puisse utiliser dans une application qui demande les données de ma propre base de données.wikipedia vider tous les titres de page et les identificateurs de page

Quelqu'un sait-il quelles dumps contiennent ces informations? Peu importe si elles contiennent également plus d'informations que ce dont j'ai besoin - je peux juste écrire une application qui choisit les informations dont j'ai besoin. J'ai essayé de le demander ... il aurait fallu 140 jours et ils ont mis en place une limite de 2700 demandes ... donc il faudrait une éternité pour obtenir le tout, à la place je veux télécharger un fichier muet et nettoyer les données et télécharger un fichier à ma propre base de données contenant uniquement les informations dont j'ai besoin

Répondre

-1

Ok moi-même trouvé après avoir obtenu plusieurs décharges, en bref, la réponse est: enwiki-dernière page.sql.gz

Il contient des identificateurs de page et des titres.

Les inscriptions se présentent comme suit: (1217768,0, 'Black_River_ (South_Carolina)', '', 0,0,0,0.6285160577990001, '20161001141146', '20161001142916', 738899573,1654, 'wikitext')

Le premier numéro est pageId. La troisième entrée est le titre. Reste je ne sais pas ce qui est - mais peu importe: D Merci à moi-même j'ai résolu ce problème et je vais le fermer: D Big pat sur le sac