2017-08-07 1 views
2

J'ai une structure de base de données type schéma en étoile, comme une table de faits ayant tous les skeys & de l'ID, alors qu'il existe plusieurs tables de dimension ayant l'ID, le code, les descriptions id est référencé dans la table de faits.Transformation de données dans AWS EMR sans utiliser Scala ou Python

nous allons tous ces tableaux (fait & dimensions) à S3 (nuage) individuellement et chaque donnée de table sont divisés en plusieurs fichiers de parquet dans un endroit S3 (un objet S3 par table)

Query: je dois effectuer une transformation sur le cloud (ie) j'ai besoin de strip de tous les skeys & de l'ID référencés dans la table de faits et remplacez-le par le code réel qui réside dans les tables de dimension et créez un autre fichier et stockez la sortie finale dans l'emplacement S3. Ce fichier sera ensuite utilisé par Redshift for Analytics. Quel est le meilleur moyen de réaliser cette solution, car je n'ai pas besoin de données brutes (clés & id) dans Redshift pour optimiser les coûts et le stockage? Avons-nous d'abord besoin de combiner ces fichiers divisés (parquet) en un seul gros fichier (ie) avant d'effectuer la transformation de données. En outre, après la transformation des données, je prévois de sauvegarder le fichier de sortie final en format parquet, mais la capture est, Redshift ne permet pas la copie du fichier parquet, donc il existe une solution pour cela Je ne suis pas un programmeur hardcore et je veux pour éviter d'utiliser scala/python dans un DME, mais je suis bon en SQL, donc existe-t-il un moyen d'effectuer la transformation de données dans le nuage à travers EMR et enregistrer les données de sortie dans un fichier ou des fichiers. S'il vous plaît conseiller

Répondre