J'essaie de construire une solution de gestion de données (DM) impliquant l'ingestion de données à volume élevé, passer par certaines règles de domaine de données, substitution (enrichissement), signaler les données erronées avant de l'envoyer au système en aval. Les règles qui vérifient le remplacement de la valeur peuvent être quelque chose de simple comme les valeurs numériques de seuil admissibles que les éléments de données doivent satisfaire, à quelque chose de plus complexe comme la recherche avec les données de base pour le pool de valeurs du domaine.# Apache-flink: cas d'utilisation pour la gestion des données
Pensez-vous que Apache Flink peut être un bon candidat pour un tel traitement? Peut-il y avoir des opérateurs de flink définis pour faire une recherche (avec les données de base) pour chaque tuple qui le traverse? Je pense qu'il y a quelques inconvénients à utiliser Apache Flink pour cette dernière question - 1) la recherche pourrait être une opération de blocage qui ralentirait le débit, 2) le point de contrôle et la persistance de l'état opérateur ne peuvent pas être effectués d'ailleurs.
Quelles sont les pensées? Y a-t-il un autre outil dans le cas d'utilisation ci-dessus?
Remerciements