2017-09-26 7 views
0

J'ai configuré Hadoop (2.x), Hbase et Nutch 2.3.1 avec succès. J'ai également rampé quelques page d'échantillon également pour l'essai. Maintenant, je dois faire de l'exploration ciblée pour un langage spécifique en utilisant l'outil opensource cld2. Si le document analysé ne contient pas cette langue spécifique, ce document ne doit pas être enregistré (dans Hbase) et ne doit pas être indexé sur Solr. Dans Nutch WIKI, il n'y a pas de point d'extension donné à l'instant fetch. Y a-t-il un autre moyen de faire le travail?Apache Nutch 2.3.1 point d'extension à l'heure de récupération

Répondre

0

Pour l'instant, il n'y a pas de point d'extension dans l'implémentation de Fetchers livrée avec Nutch. Si vous y réfléchissez, vous avez besoin du document à extraire et à analyser (pour extraire la langue), puis vous pouvez écrire votre propre IndexingFilter afin de vérifier la langue du document et décider si vous voulez l'indexer ou non.

Cela ne devrait pas être très difficile à écrire par vous-même. D'autre part pour Nutch 1.x nous avons déjà ce PR https://github.com/apache/nutch/pull/219 qui pourrait être facilement porté pour fonctionner sur 2.x, et alors vous aurez seulement besoin de la bonne expression JEXL.

Nous avons déjà un plugin language-identifier livré avec Nutch 2.x, vous pourriez probablement jeter un oeil à la façon dont est implémenté et ajouter votre propre intégration avec cld2 comme un plugin différent probablement. Si vous voulez utiliser cld2, vous devrez écrire un analyseur (avec l'indexeur) pour détecter la langue du contenu.

+0

Merci frère. J'ai implémenté le filtre de langue au moment de l'index. Mon problème est que je dois supprimer ce document qui ne contient pas la langue Ourdou de la table Hbase (où le contenu brut du document est stocké par Nutch à l'heure de récupération) et non de Solr (où indexé) – Shafiq