2011-10-27 3 views
0

J'ai utilisé l'outil ExtractWikipedia de lucene pour extraire un vidage bz2 des dernières pages wiki en anglais. Les fichiers .txt résultants ont toujours le langage de balisage wikipedia en eux. Existe-t-il un outil ou un script python que je peux exécuter sur le répertoire pour analyser uniquement le contenu de chaque fichier dans le répertoire? (c'est-à-dire: modifier les fichiers pour qu'ils ne contiennent que du contenu, pas de balisage)Analyser le balisage Wikipedia à partir de fichiers dans un répertoire

Sinon, y at-il une bibliothèque java ou un paquetage qui peut accomplir cela? J'espère l'intégrer dans la classe Lucene, ExtractWikipedia.

Répondre

0

vous pouvez essayer un wikiprep c'est un script perl prêt que (vous devez installer perl premier)

  • supprime la langue wikitexte
  • générer des catégories heirarchial
  • supprime Redirections
  • génère un format XML facile à analyser

http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

il peut prendre quelques heures pour parcourir tous wikipedia muet et peut avoir besoin d'une grande mémoire d'environ 6 Go ram

Questions connexes