J'ai une énorme quantité de données à indexer et cela a pris plus de 10 heures pour faire le travail. Y a-t-il un moyen de le faire sur hadoop? Quelqu'un a déjà fait ça? Merci beaucoup!Exécution de l'index solr sur hadoop
Répondre
Vous n'avez pas expliqué où prend 10h? Est-ce qu'il faut pour extraire les données? ou faut-il simplement indexer les données.
Si vous prenez beaucoup de temps lors de l'extraction, vous pouvez utiliser hadoop. Solr a une fonctionnalité appelée insert en vrac. Ainsi, dans votre fonction de carte, vous pouvez accumuler 1000s d'enregistrement et valider pour l'index dans un seul coup pour résoudre un grand nombre de recods. Cela permettra d'optimiser votre performance.
De quelle taille sont vos données?
Vous pouvez collecter un grand nombre d'enregistrements dans la fonction de réduction de la tâche de mappage/réduction. Vous devez générer des clés correctes dans votre carte afin qu'un grand nombre d'enregistrements passe à la fonction de réduction unique. Dans votre classe reduce personnalisée, initialisez l'objet solr dans la méthode setup/configure, en fonction de votre version de hadoop, puis fermez-le dans la méthode cleanup. Vous devrez créer un objet collection de documents (dans solrNet ou solrj) et les valider tous coup unique.
Si vous utilisez hadoop, il existe une autre option appelée katta. Vous pouvez regarder par-dessus.
Merci beaucoup, Animesh! L'heure était principalement l'indexation des données, puisque j'ai traité les données avant d'exécuter un programme Java pour appeler solr sur http. Et ce programme fonctionnait sur la même machine que le serveur solr. Peut-être que je devrais vérifier avec l'insertion en vrac? ... – trillions
ouais je l'ai fait avant et l'insertion en bloc réduira vraiment beaucoup de temps. –
Merci beaucoup, Animesh! Et les données que j'ai sont plus de 20 millions. Juste pour confirmer, pour l'insertion en vrac, vous vouliez "continuer à ajouter doc" et une fois frappé comme 1000 enregistrements, puis faire un commit, non? – trillions
Vous pouvez écrire un travail de réduction de carte sur votre cluster hadoop qui prend simplement chaque enregistrement et l'envoie à solr sur http pour l'indexation. Afaik solr n'a actuellement pas d'indexation sur un cluster de machines, il serait donc utile de chercher dans la recherche élastique si vous voulez distribuer votre index aussi sur plusieurs nœuds.
Il existe un format de sortie SOLR hadoop qui crée un nouvel index dans chaque réducteur, de sorte que vous dispattez vos clés en fonction des index souhaités, puis copiez les fichiers hdfs dans votre instance SOLR après le fait.
http://www.datasalt.com/2011/10/front-end-view-generation-with-hadoop/
- 1. Hadoop, exécution de tâches
- 2. Exécution de Solr sur les problèmes VPS
- 3. Problème exécution MR programmes sur Hadoop d'Eclipse
- 4. Exécution de Hadoop Pi Exemple
- 5. Quelle est la meilleure façon d'exécuter Lucene/Solr sur Hadoop?
- 6. Hadoop exécution de la tâche spéculative
- 7. Hadoop - exécution de plusieurs tâches Map
- 8. Exécution de Hadoop sous Windows 7
- 9. Exécution d'un travail UIMA sur Hadoop avec Behemoth
- 10. Exécution du programme java sur hadoop-cluster avec maven
- 11. Exécution d'un travail Hadoop sans utiliser JobConf
- 12. Ces temps de configuration/nettoyage/exécution Hadoop sont-ils raisonnables?
- 13. Exécution d'un travail hadoop sans créer de fichier jar
- 14. Exécution de Solr dans un cluster - haute disponibilité uniquement
- 15. Intégration de Solr + Hadoop et Nutch + Hbase sur Amazon Web Services et Local
- 16. Exécution de l'exemple de tri sur Hadoop (de cluster à nœud unique)
- 17. Exécution du serveur solr à partir de php
- 18. Exécution de l'exemple de tri sur Hadoop (cluster à un seul noeud)?
- 19. Exécution de plusieurs tâches de mappage Apache Nutch sur un cluster Hadoop
- 20. Colonne de magasin sur Hadoop?
- 21. Exécution des tâches hadoop de MRToolkit sur AWS elastic map/reduce
- 22. Les demandes concernant la carte-reduce exécution dans Hadoop
- 23. Hadoop sur machine virtuelle
- 24. Instances Hadoop sur GCE
- 25. Exploration nutch sur hadoop
- 26. Hadoop sur Azure
- 27. Hadoop installation sur ubuntu12.10
- 28. JavaCV sur Hadoop
- 29. Hadoop sur Cygwin - DemoWordCount
- 30. Exclusion de Solr sur stats.field?
similaires (après que vous mettez vos données dans Hadoop cela se résume au même problème): http://stackoverflow.com/questions/11548357/searching-over-documents-stored-in-hadoop- quel-outil-à-utiliser –