Je cours nutch intégré avec Solr pour un moteur de recherche, le travail de crawl nutch se passe sur hadoop. Ma prochaine exigence consiste à exécuter un job de catégorisation de contenu pour ce contenu analysé. Comment puis-je accéder au contenu textuel stocké dans HDFS pour ce travail de marquage? Je prévois d'exécuter le travail de marquage avec Java, comment accéder à ce contenu via Java?Comment accéder au contenu analysé à partir de nutch pour la catégorisation du contenu
1
A
Répondre
0
Le contenu analysé est stocké dans le fichier de données dans le répertoire segments par exemple:
segments \ 2014 ... \ content \ partie-00000 \ data
Le type de fichier est un fichier de séquence. Pour le lire, vous pouvez utiliser le code de the hadoop book ou de this answer
0
Pourquoi n'utilisez-vous pas Solr pour la catégorisation?
Il suffit d'écrire votre propre plugin et de classer les pages avant de les envoyer à Solr et de stocker la valeur de catégorie dans Solr!
Questions connexes
- 1. Catégorisation automatique de contenu
- 2. Accéder au contenu UCM à partir du backend
- 3. Comment accéder au contenu du répertoire
- 4. accéder au fournisseur de contenu
- 5. Accéder à du contenu JavaScript dynamique à partir de onclick
- 6. Comment obtenir le contenu html de nutch
- 7. Contenu iframe Fancybox - comment accéder CSS à partir du parent?
- 8. Vérification/test de la sortie du contenu analysé par mime4j
- 9. Comment accéder au contenu du dictionnaire ou du tableau?
- 10. Comment puis-je accéder au contenu du titre de jquery
- 11. nutch Impossible d'analyser le contenu
- 12. Comment accéder au contenu inter-domaines?
- 13. Comment accéder au contenu d'un contrôle ASP.NET?
- 14. Accéder au contenu du disque dur à partir de la tablette Android
- 15. Comment accéder au contenu d'un littéral d'objet?
- 16. Jetty.xml accéder au contenu statique
- 17. comment accéder à toute la gamme de contenu du dictionnaire
- 18. comment accéder au contenu du site intranet à partir de l'application mvc?
- 19. Comment trier le contenu analysé en javascript
- 20. Comment accéder au contenu d'un objet?
- 21. jquery accéder iframe id à partir du contenu iframe
- 22. Accéder au contenu du site Web dans Windows Phone 7
- 23. Comment accéder au contenu du fichier .bat via C# .Net?
- 24. Extension Safari, accéder à la page/au contenu directement à partir de la barre d'outils?
- 25. accéder au contenu du tableau à partir d'un pointeur retourné par la fonction
- 26. comment accéder au contenu de iframe dans la fenêtre principale
- 27. jQuery Générer du contenu à partir du contenu généré
- 28. Comment accéder au contenu du pot pendant l'exécution?
- 29. accéder au contenu de la page maquette webform vs MVC
- 30. Configurer la route pour accéder au contenu privé S3