Est-il possible d'utiliser Lucene Benchmark pour indexer un vidage wikipedia? Je veux être en mesure d'exécuter des requêtes de phrase sur le dernier vidage de la page wikipedia en anglais. J'essaie de trouver des exemples d'utilisation, mais je n'en ai trouvé aucun.Utiliser Lucene pour indexer Wikipedia
J'ai téléchargé la dernière décharge anglais, nommé: enwiki-latest-pages-articles.xml.bz2
Puis j'ai couru la commande dans le terminal: java org.apache.lucene.benchmark.utils. ExtractWikipedia -i ~/enwiki-latest-pages-articles.xml.bz2
que je crois extrait les pages dans un répertoire intitulé "enwiki"
maintenant, il y a quelque chose d'autre dans les benchmarks que je dois courir dans Afin d'indexer le wiki? Le README.enwiki ne me donne pas vraiment un ensemble clair d'instructions, en fait je ne suis même pas sûr si j'étais supposé exécuter la classe ExtractWikipedia ou non.
Cette question semble se situer dans la vallée étrange entre StackOverflow ServerFault et SuperUser. – ObscureRobot