Je voudrais charger des données de wikipedia pour une tâche dans Hadoop. J'ai trouvé quelques liens: http://www.kiwix.org/wiki/Main_Page#Wikipedia_files, https://archive.org/details/enwiki-20160113. Mais je ne suis pas sûr dans quel format ce sera et comment travailler avec cela. Donc, la question est de savoir si il est possible de télécharger wikipedia dans un ou plusieurs fichiers txt?Télécharger le wiki dans un ou plusieurs fichiers
0
A
Répondre
1
Eh bien, vous pouvez télécharger la dernière complète (une autre décharge est en cours à 20.161.101) décharges de contenu wikipedia ici: https://dumps.wikimedia.org/enwiki/20161020/ note Je ne pense pas que cela inclut les fichiers eux-mêmes médias, et que cet exemple est que les Anglais site - les autres sites sont disponibles là aussi.