J'ai utilisé l'outil ExtractWikipedia de lucene pour extraire un vidage bz2 des dernières pages wiki en anglais. Les fichiers .txt résultants ont toujours le langage de balisage wikipedia en eux. Existe-t-il un outil ou un script python que je peux exécuter sur le répertoire pour analyser uniquement le contenu de chaque fichier dans le répertoire? (c'est-à-dire: modifier les fichiers pour qu'ils ne contiennent que du contenu, pas de balisage)Analyser le balisage Wikipedia à partir de fichiers dans un répertoire
Sinon, y at-il une bibliothèque java ou un paquetage qui peut accomplir cela? J'espère l'intégrer dans la classe Lucene, ExtractWikipedia.