Analyser le balisage Wikipedia à partir de fichiers dans un répertoire

J'ai utilisé l'outil ExtractWikipedia de lucene pour extraire un vidage bz2 des dernières pages wiki en anglais. Les fichiers .txt résultants ont toujours le langage de balisage wikipedia en eux. Existe-t-il un outil ou un script python que je peux exécuter sur le répertoire pour analyser uniquement le contenu de chaque fichier dans le répertoire? (c'est-à-dire: modifier les fichiers pour qu'ils ne contiennent que du contenu, pas de balisage)Analyser le balisage Wikipedia à partir de fichiers dans un répertoire

Sinon, y at-il une bibliothèque java ou un paquetage qui peut accomplir cela? J'espère l'intégrer dans la classe Lucene, ExtractWikipedia.

Source

2011-10-27 Dan Q