Druide est utilisé pour le traitement en temps réel et par lots. Mais peut-il totalement remplacer hadoop? Si pas pourquoi? Comme dans quel est l'avantage de hadoop sur druide? J'ai lu que le druide est utilisé avec hadoop. L'utilisation de Hadoop peut-elle être évitée?Le druide peut-il remplacer le hadoop?
Répondre
Nous parlons ici de deux technologies légèrement liées mais très différentes.
Druid est un système d'analyse en temps réel parfaitement adapté aux regroupements d'événements temporels et temporels. Hadoop est HDFS (un système de fichiers distribué) + Map Reduce (un paradigme pour l'exécution de processus distribués), qui ont créé ensemble un système écologique pour le traitement distribué et jouent le rôle de technologie sous-jacente pour de nombreux autres projets Open Source.
Vous pouvez configurer druid pour utiliser Hadoop; c'est-à-dire envoyer des travaux MR pour indexer des données de lot et lire ses données indexées à partir de HDFS (bien sûr il les mettra localement en cache sur le disque local)
Si vous voulez ignorer Hadoop, vous pouvez effectuer votre indexation et chargement depuis une machine locale aussi, bien sûr avec la pénalité d'être limitée à une machine.
Pouvez-vous éviter d'utiliser Hadoop avec Druide? Oui, vous pouvez diffuser des données en temps réel dans un cluster Druid plutôt que de le charger par lots avec Hadoop. Une façon de procéder consiste à diffuser les données dans Kafka, qui traitera les événements entrants et les transmettra à Storm, qui pourra ensuite les traiter et les charger dans les nœuds Druid Realtime.
Généralement, cette configuration est utilisée avec Hadoop en parallèle, car les données en temps réel livrées avec son propre bagage doivent souvent être réparées et remblayées. Toute cette architecture a été surnommée "Lambda" par certains.
- 1. Insertion rapide dans le druide
- 2. Problème d'incompatibilité Hadoop et Druide avec la bibliothèque Jackson
- 3. Druide Ingestion Échec
- 4. remplacer le texte dans le fichier d'entrée avec hadoop MR
- 5. Fonctions d'agrégat druide
- 6. Druide RabbitMQ Firehose
- 7. Comment remplacer le tri par défaut de Hadoop
- 8. Analyse de cohorte de druide?
- 9. modifier le code source hadoop
- 10. Remplacer mapreduce.fileoutputcommitter.marksuccessfuljobs de hadoop en 0oz
- 11. Druide - Données de commande par colonne d'horodatage
- 12. Le Hadoop Hierarchy Puzzle
- 13. initialisation d'un cluster Druide utilisant Whirr
- 14. Druide - Valeurs distinctes d'un ensemble de colonnes
- 15. Tranquility pas envoyer des données à Druide
- 16. Druide avec Kafka Ingestion: données de filtrage
- 17. Le cluster Hadoop s'arrête après le mappage
- 18. Hadoop Distributed Cache - modifier le fichier
- 19. Comment fonctionne le streaming Hadoop
- 20. Tri dans le framework hadoop
- 21. Hadoop impossible d'exécuter le programme
- 22. org.apache.hadoop.fs.BlockMissingException dans le travail hadoop
- 23. Enregistrer le fichier sur hadoop
- 24. débogage Hadoop le streaming progam
- 25. Topologies pour le cluster hadoop?
- 26. Découvrez le fournisseur de hadoop
- 27. Carte Hadoop/Réduire le chaînage
- 28. suggestion avec le projet hadoop
- 29. Remplacer le texte et le remplacer
- 30. format d'entrée hadoop pour le streaming hadoop. Wikihadoop Input Format
Je pense que votre question devrait être reformulée (et vous pouvez tirer cette conclusion de ce que @ nylon-smile a écrit). Voir ma réponse ci-dessous. – user766353