2017-01-23 2 views
0

Pour un type de configuration de production, où les TB des enregistrements seraient écrits sur les sujets KAFKA, quelle est la meilleure pratique pour utiliser le connecteur KAFKA connect - HDFS?Meilleure pratique d'utilisation de kafka connect

Mon instance kafka s'exécute sur le nom d'hôte AWS a.b.c.d et mon nom de noeud hadoop sur le nom d'hôte AWS p.q.r.s. Pour les besoins du développement/POC, nous avons gardé la confluence dans la même case que celle de l'instance de kafka qui s'exécute sur a.b.c.d. La taille du cluster HDFS est de 500 Go. Mais pour une configuration de type de production où la taille du cluster serait de 20-30 To, est-il conseillé de rester confluent dans la même case que l'instance KAFKA ou dans la boîte Namenode ou dans une boîte séparée? Combien de taille de disque séparé serait nécessaire dans un tel cas de production?

Répondre

1

Je suppose que vous voulez dire les travailleurs Connect lorsque vous dites "confluent" donc ce commentaire est basé sur cette hypothèse. La meilleure chose à faire est de séparer les services lorsque cela est possible. Exécutez les travailleurs séparément des courtiers, séparément du NameNode. Les travailleurs Connect nécessitent très peu d'espace disque car ils ne contiennent pas de données (à l'exception des données de décalage en mode autonome). En mode réparti, vous pouvez mettre à l'échelle les travailleurs de manière élastique, de sorte que la séparation est également préférable pour l'installation évolutive à long terme.

Pour votre cas d'utilisation, vous avez vraiment besoin de référencer pour vous assurer que les performances sont acceptables si vous souhaitez exécuter des éléments dans la même zone. Déterminer s'il est bon de co-localiser est vraiment une question de consultation qui nécessite des détails de votre cas d'utilisation à un niveau probablement pas approprié pour un forum en ligne.