0

J'essaie de construire une solution de gestion de données (DM) impliquant l'ingestion de données à volume élevé, passer par certaines règles de domaine de données, substitution (enrichissement), signaler les données erronées avant de l'envoyer au système en aval. Les règles qui vérifient le remplacement de la valeur peuvent être quelque chose de simple comme les valeurs numériques de seuil admissibles que les éléments de données doivent satisfaire, à quelque chose de plus complexe comme la recherche avec les données de base pour le pool de valeurs du domaine.# Apache-flink: cas d'utilisation pour la gestion des données

Pensez-vous que Apache Flink peut être un bon candidat pour un tel traitement? Peut-il y avoir des opérateurs de flink définis pour faire une recherche (avec les données de base) pour chaque tuple qui le traverse? Je pense qu'il y a quelques inconvénients à utiliser Apache Flink pour cette dernière question - 1) la recherche pourrait être une opération de blocage qui ralentirait le débit, 2) le point de contrôle et la persistance de l'état opérateur ne peuvent pas être effectués d'ailleurs.

Quelles sont les pensées? Y a-t-il un autre outil dans le cas d'utilisation ci-dessus?

Remerciements

Répondre

0

La réponse courte est 'oui'. Vous pouvez utiliser Flink pour toutes les choses que vous avez mentionnées, y compris les recherches de données et l'enrichissement, avec l'avertissement que vous n'aurez pas une fois ou une seule garantie sur les effets secondaires causés par vos opérateurs (comme la mise à jour de l'état externe). Vous pouvez contourner la latence ajoutée des recherches externes avec un parallélisme supérieur sur cet opérateur particulier.

Il est impossible de donner une réponse précise sans plus d'informations, telles que les «données volumineuses» dans votre cas, les exigences de latence par événement, les autres contraintes, etc. sens général, avant de vous engager à utiliser Flink, vous devriez jeter un oeil à la fois Spark Streaming et Apache Storm et comparer. Les deux Spark et Storm ont des communautés plus grandes et plus de documentation, de sorte qu'il pourrait vous faire économiser la peine dans le long rhum. Tags sur StackOverflow au moment de l'écriture: spark-streaming x 1746, apache-tempête x 1720, apache-flink x 421

Plus important encore, Spark Streaming a une sémantique similaire à Flink, mais vous donnera probablement un meilleur débit de données en masse . Alternativement, Storm est conceptuellement similaire à Flink (becs/boulons vs opérateurs) et a en réalité un rendement/débit inférieur dans la plupart des cas, mais est juste un cadre plus établi.