2017-06-02 1 views
-1

Actuellement, nous utilisons l'outil traditionnel ETL d'entrepôt de données IBM DataStage. Nous cherchons à migrer ces emplois. Ces tâches incluent principalement la jointure et la transformation pour dériver des tables de faits. Quelle serait la meilleure technologie pour migrer ces emplois? Nous utilisons hue oozie avec des requêtes Impala pour ETL, devrions-nous chercher à utiliser spark sql pour ETL plutôt que des requêtes Impala?Spark SQL vs Impala pour ETL

Répondre

0

comment r u type mettant en oeuvre 2 etc. Ruche, Impala, etc. Quant à moi l'ensemble de la pile de données Big est inutile pour Prod env

U append non seulement des données, mais la mise à jour en vrac pour charger des données comme le type 2. pour la correction des données vous avez besoin de beaucoup de requêtes ad hoc, mise à jour, supprimer l'insertion. Exécuter beaucoup de requêtes adhoc de l'équipe de support/dev pour trouver le résultat
discordance, etc. Tous les 3 points ci-dessus rendent cette pile inutile.

Cas d'utilisation est Beaucoup de beaucoup de données dont la production est une estimation pas correct, une grande table de matières grasses, avec suppression et baisse ou les données non structurées