Pour un type de configuration de production, où les TB des enregistrements seraient écrits sur les sujets KAFKA, quelle est la meilleure pratique pour utiliser le connecteur KAFKA connect - HDFS?Meilleure pratique d'utilisation de kafka connect
Mon instance kafka s'exécute sur le nom d'hôte AWS a.b.c.d et mon nom de noeud hadoop sur le nom d'hôte AWS p.q.r.s. Pour les besoins du développement/POC, nous avons gardé la confluence dans la même case que celle de l'instance de kafka qui s'exécute sur a.b.c.d. La taille du cluster HDFS est de 500 Go. Mais pour une configuration de type de production où la taille du cluster serait de 20-30 To, est-il conseillé de rester confluent dans la même case que l'instance KAFKA ou dans la boîte Namenode ou dans une boîte séparée? Combien de taille de disque séparé serait nécessaire dans un tel cas de production?