2014-05-18 2 views
1

Je cours nutch intégré avec Solr pour un moteur de recherche, le travail de crawl nutch se passe sur hadoop. Ma prochaine exigence consiste à exécuter un job de catégorisation de contenu pour ce contenu analysé. Comment puis-je accéder au contenu textuel stocké dans HDFS pour ce travail de marquage? Je prévois d'exécuter le travail de marquage avec Java, comment accéder à ce contenu via Java?Comment accéder au contenu analysé à partir de nutch pour la catégorisation du contenu

Répondre

0

Le contenu analysé est stocké dans le fichier de données dans le répertoire segments par exemple:

segments \ 2014 ... \ content \ partie-00000 \ data

Le type de fichier est un fichier de séquence. Pour le lire, vous pouvez utiliser le code de the hadoop book ou de this answer

0

Pourquoi n'utilisez-vous pas Solr pour la catégorisation?

Il suffit d'écrire votre propre plugin et de classer les pages avant de les envoyer à Solr et de stocker la valeur de catégorie dans Solr!

Questions connexes