J'ai une table journalière de logs (environ 10m entrées chaque jour) stockées dans DynamoDB.AWS: transformation de données de dynamodb à redshift
Pour effectuer une analyse, j'ai besoin de la transférer dans Redshift. De plus, j'ai besoin de créer de nouvelles colonnes parmi celles existantes en analysant une chaîne (nvarchar (250)). Mon idée était d'utiliser la commande COPY et de transférer les données de DynamoDB vers Redshift, puis d'utiliser les fonctions UDF pour créer de nouvelles colonnes. Le problème avec cette approche est qu'il faut beaucoup de temps pour terminer (les deux parties) et il continue d'échouer (état de la requête ABORTED): Je transfère environ 10 jours de données en une seule commande de copie.
Selon vous, quelle devrait être la meilleure approche: utiliser certains services Amazon comme le pipeline de données ou le DME? ou faire la même chose mais organisée différemment?
Merci pour la réponse! une question: pensez-vous que le pipeline de données peut être utilisé pour créer de nouvelles colonnes tout en transférant des données de dynamodb à s3, ou les données doivent-elles être transférées d'abord puis transformées (en redshift)? –
Aucun pipeline de données ne prend en charge cette fonctionnalité. Pourquoi vous ne pouvez pas écrire le fichier s3 avec les données dont vous avez besoin? Si vous voulez le faire à partir dynamo db. Optez pour aws glue ou utilisez dynamo db stream wrapper et traitez les enregistrements en lambda et écrivez en s3 (mais je ne suis pas du tout d'accord avec cette solution à long terme/coût/performance) –
autant que je l'ai vu, aws colle aussi bien) n'est disponible que dans une région: nous est (N. virginia) et mes données sont dans l'autre région ... –