J'ai déployé un flux structuré avec 4 travailleurs sur un sujet Kafka avec 4 partitions.Expliquer correspondance entre les exécuteurs de diffusion en continu structuré Spark et les partitions Kafka
Je supposais qu'il y aura 4 travailleurs déployés pour 4 partitions, avec un mappage un à un entre les travailleurs < -> partition.
Mais, thats pas le cas. Toutes les partitions sont desservies par un même exécuteur. Je l'ai confirmé en vérifiant l'identificateur de threads et les journaux sur l'exécuteur.
Y at-il un document qui montre la corrélation entre les partitions Kafka et Spark structuré Streams. De plus, y a-t-il des boutons que nous pouvons modifier.
Merci Vignesh. Mais, je souhaite découvrir l'approche de Streaming Structuré. Est-ce la même chose avec Structured Streaming? –
La différence essentielle entre le streaming structuré et le streaming d'étincelles plus ancien est que vous obtenez un flux DStream en diffusion continue et que vous obtenez un flux de données en streaming structuré. Le parallélisme 1: 1 reste le même. –