2017-10-09 7 views
0

J'ai déployé un flux structuré avec 4 travailleurs sur un sujet Kafka avec 4 partitions.Expliquer correspondance entre les exécuteurs de diffusion en continu structuré Spark et les partitions Kafka

Je supposais qu'il y aura 4 travailleurs déployés pour 4 partitions, avec un mappage un à un entre les travailleurs < -> partition.

Mais, thats pas le cas. Toutes les partitions sont desservies par un même exécuteur. Je l'ai confirmé en vérifiant l'identificateur de threads et les journaux sur l'exécuteur.

Y at-il un document qui montre la corrélation entre les partitions Kafka et Spark structuré Streams. De plus, y a-t-il des boutons que nous pouvons modifier.

Répondre

0

Si vous utilisez l'API DirectStream la corrélation est 1: 1 (sparkcore: partition). De spark streaming guide,

L'étincelle intégration diffusion en continu pour Kafka 0,10 est similaire dans sa conception à la 0,8 approche Stream Direct. Il fournit simple parallélisme, 1: 1 correspondance entre les partitions et les partitions Kafka Spark, et accès à des compensations et des métadonnées

+0

Merci Vignesh. Mais, je souhaite découvrir l'approche de Streaming Structuré. Est-ce la même chose avec Structured Streaming? –

+1

La différence essentielle entre le streaming structuré et le streaming d'étincelles plus ancien est que vous obtenez un flux DStream en diffusion continue et que vous obtenez un flux de données en streaming structuré. Le parallélisme 1: 1 reste le même. –