2017-02-23 1 views
1

J'utilise le streaming structuré Spark pour traiter des données volumineuses à partir de la file d'attente Kafka et effectuer un calcul ML haletant, mais j'ai besoin d'écrire le résultat dans Elasticsearch.Comment écrire ElasticsearchSink pour Spark Structured streaming

J'ai essayé d'utiliser ForeachWriter mais je ne peux pas obtenir un SparkContext à l'intérieur, l'autre option est probablement de faire HTTP Post à l'intérieur du ForeachWriter.

En ce moment, je pense à écrire mon propre ElasticsearchSink.

Existe-t-il une documentation pour créer un évier pour le streaming structuré Spark?

Répondre

1

Vous pouvez jeter un oeil à ForeachSink. Il montre comment implémenter un Sink et convertir DataFrame en RDD (c'est très compliqué et a un grand commentaire). Cependant, sachez que l'API Sink est toujours privée et immature, elle pourrait être modifiée à l'avenir.