2016-09-05 1 views
1

J'ai un cas d'utilisation dans lequel je lance une étincelle locale (intégrée) à l'intérieur d'un serveur d'applications plutôt que d'utiliser le serveur de jobs spark spark ou le noyau. Parce que l'ancienne (étincelle intégrée) a une latence très faible par rapport aux autres. Je suis intéressé parInconvénients de l'utilisation de Spark intégré dans l'application

  • Inconvénients de cette approche s'il y en a.
  • Peut-il être utilisé en production?

P.S. La faible latence est la priorité ici.

EDIT: La taille des données traitées pour la plupart des cas sera inférieure à 100mb.

+0

Quelle est la taille des données traitées? L'exécution locale de Spark n'est généralement pas l'utilisation prévue de Spark. –

+0

@JoeWiden S'il vous plaît se référer à mon édition. –

Répondre

1

Je ne pense pas que ce soit un inconvénient. Si vous regardez l'implémentation du Hive Thriftserver dans le projet Spark lui-même, ils gèrent également SQLContext etc, dans le processus Hive Server. C'est particulièrement le cas, si la quantité de données est petite et le conducteur peut le manipuler facilement. Donc, je voudrais aussi voir cela comme un indice, que cela convient à l'utilisation de la production.

Mais je suis totalement d'accord, la documentation ou le conseil en général sur la façon d'intégrer une étincelle dans une application interactive orientée client manque d'informations sur les pipelines BigData.