2014-06-09 2 views
8

Druide est utilisé pour le traitement en temps réel et par lots. Mais peut-il totalement remplacer hadoop? Si pas pourquoi? Comme dans quel est l'avantage de hadoop sur druide? J'ai lu que le druide est utilisé avec hadoop. L'utilisation de Hadoop peut-elle être évitée?Le druide peut-il remplacer le hadoop?

+0

Je pense que votre question devrait être reformulée (et vous pouvez tirer cette conclusion de ce que @ nylon-smile a écrit). Voir ma réponse ci-dessous. – user766353

Répondre

6

Nous parlons ici de deux technologies légèrement liées mais très différentes.

Druid est un système d'analyse en temps réel parfaitement adapté aux regroupements d'événements temporels et temporels. Hadoop est HDFS (un système de fichiers distribué) + Map Reduce (un paradigme pour l'exécution de processus distribués), qui ont créé ensemble un système écologique pour le traitement distribué et jouent le rôle de technologie sous-jacente pour de nombreux autres projets Open Source.

Vous pouvez configurer druid pour utiliser Hadoop; c'est-à-dire envoyer des travaux MR pour indexer des données de lot et lire ses données indexées à partir de HDFS (bien sûr il les mettra localement en cache sur le disque local)

Si vous voulez ignorer Hadoop, vous pouvez effectuer votre indexation et chargement depuis une machine locale aussi, bien sûr avec la pénalité d'être limitée à une machine.

4

Pouvez-vous éviter d'utiliser Hadoop avec Druide? Oui, vous pouvez diffuser des données en temps réel dans un cluster Druid plutôt que de le charger par lots avec Hadoop. Une façon de procéder consiste à diffuser les données dans Kafka, qui traitera les événements entrants et les transmettra à Storm, qui pourra ensuite les traiter et les charger dans les nœuds Druid Realtime.

Généralement, cette configuration est utilisée avec Hadoop en parallèle, car les données en temps réel livrées avec son propre bagage doivent souvent être réparées et remblayées. Toute cette architecture a été surnommée "Lambda" par certains.