2011-10-23 3 views
1

Est-il possible d'utiliser Lucene Benchmark pour indexer un vidage wikipedia? Je veux être en mesure d'exécuter des requêtes de phrase sur le dernier vidage de la page wikipedia en anglais. J'essaie de trouver des exemples d'utilisation, mais je n'en ai trouvé aucun.Utiliser Lucene pour indexer Wikipedia

J'ai téléchargé la dernière décharge anglais, nommé: enwiki-latest-pages-articles.xml.bz2

Puis j'ai couru la commande dans le terminal: java org.apache.lucene.benchmark.utils. ExtractWikipedia -i ~/enwiki-latest-pages-articles.xml.bz2

que je crois extrait les pages dans un répertoire intitulé "enwiki"

maintenant, il y a quelque chose d'autre dans les benchmarks que je dois courir dans Afin d'indexer le wiki? Le README.enwiki ne me donne pas vraiment un ensemble clair d'instructions, en fait je ne suis même pas sûr si j'étais supposé exécuter la classe ExtractWikipedia ou non.

+2

Cette question semble se situer dans la vallée étrange entre StackOverflow ServerFault et SuperUser. – ObscureRobot

Répondre

1

Exécutez simplement "ant"; J'ai posté une réponse plus approfondie sur la liste de diffusion Lucene, mais c'est essentiellement l'essentiel. Le fichier build.xml contient un ensemble de cibles permettant d'exécuter des tests de performances.

+0

Pourriez-vous ajouter un lien à votre réponse dans la liste de diffusion de Lucene ou collez-la ici? Je voudrais essayer cette solution mais il n'y a pas d'instructions. – anthonybell

+0

Voici un lien vers ce vieux fil de 2011: http://markmail.org/thread/qhkh7lyxff77kskr YMMV Je ne suis pas sûr que la solution soit toujours valable puisque Lucene a subi de nombreux changements depuis lors ... –

0

La fondation Wikimedia a travaillé sur un nouveau projet appelé DiffDb. En utilisant Hadoop, nous créons le diff entre deux révisions et tous ces diffs sont indexés en utilisant Lucene. Vous pouvez trouver le code à github:

L'indice qui en résulte pour que le Wikipédia anglais est 1.4Tb mais vous pouvez faire des requêtes vraiment cool, comme qui a ajouté foo en avril 2005, qui a supprimé plus de 10k en octets, etc etc

Questions connexes