Comment accéder au contenu analysé à partir de nutch pour la catégorisation du contenu

Je cours nutch intégré avec Solr pour un moteur de recherche, le travail de crawl nutch se passe sur hadoop. Ma prochaine exigence consiste à exécuter un job de catégorisation de contenu pour ce contenu analysé. Comment puis-je accéder au contenu textuel stocké dans HDFS pour ce travail de marquage? Je prévois d'exécuter le travail de marquage avec Java, comment accéder à ce contenu via Java?Comment accéder au contenu analysé à partir de nutch pour la catégorisation du contenu

Source

2014-05-18 Ranith Sachintha

Le contenu analysé est stocké dans le fichier de données dans le répertoire segments par exemple:

segments \ 2014 ... \ content \ partie-00000 \ data

Le type de fichier est un fichier de séquence. Pour le lire, vous pouvez utiliser le code de the hadoop book ou de this answer

Source

2014-05-20 08:33:52 Diaa

Pourquoi n'utilisez-vous pas Solr pour la catégorisation?

Il suffit d'écrire votre propre plugin et de classer les pages avant de les envoyer à Solr et de stocker la valeur de catégorie dans Solr!

Source

2014-05-26 05:40:30

Comment accéder au contenu analysé à partir de nutch pour la catégorisation du contenu

Répondre

Questions connexes