0

Nous utilisons Spark structuré en streaming avec le paquet étincelle-eventhubs pour lire les messages de l'Azure IoTHub. Dans certaines situations, le point de contrôle Spark ne fonctionne pas comme nous le voulons. Par conséquent, nous aimerions pouvoir définir les décalages de départ manuellement.Impossible de définir le décalage de début éclateurs eventhubs

Notre plan était d'attribuer les décalages manuellement dans la carte Paramètres IoThub, par deux réglages:

  • "eventhubs.filter.offset" -> { "partitionKey1": "Offset1", ...} ou
  • "eventhubs.startingOffsets" -> { "partitionKey1": "Offset1", ...}

les deux versions ne fonctionne pas, ce qui signifie que Spark commence toujours la lecture du premier message de données obtenu à partir de la IoTHub.

Nous ne savons pas non plus si la syntaxe ci-dessus est correcte, car il n'y a pas de documentation à ce sujet.

Nous utilisons Spark 2.1 et le paquet étincelle-eventhubs de Maven:

"com.microsoft.azure" % "étincelle streaming eventhubs_2.11" % "2.1.1"

Répondre

0

J'ai récemment hérité de cette bibliothèque il y a quelques semaines. Dans la version actuelle (2.1.5), il n'y a pas de support pour la configuration par partition et il y a beaucoup de documentation manquante.

La prochaine version prendra en charge la configuration par partition des décalages de début (ou des temps de mise en file d'attente) et des débits max. Il y aura aussi quelques améliorations supplémentaires. De plus, une nouvelle documentation sur la configuration de la bibliothèque et son utilisation avec Streaming structuré, Spark Streaming et Spark Core sera publiée. Je publierai bientôt une carte routière détaillée sur GitHub.

Désolé pour le problème et merci beaucoup pour votre intérêt. J'essaie de mettre la bibliothèque en forme, donc si vous avez plus de commentaires/questions, je suis heureux de discuter ici ou sur GitHub!