AWS Datapipeline - Importer des fichiers nommés au hasard dans un compartiment s3 à Redshift

J'ai un cas d'utilisation où les nouveaux fichiers peuvent apparaître dans un dossier s3 à tout moment et nous aimerions les importer dans Redshift via le RedshiftCopyActivity. J'ai une configuration de pipeline où nous pouvons déplacer des données de s3 à Redshift - mais avec des fichiers qui sont spécifiquement nommés. Cependant, dans ce cas, les noms de fichiers peuvent être aléatoires. Je pense à quelque chose commeAWS Datapipeline - Importer des fichiers nommés au hasard dans un compartiment s3 à Redshift

Disons que nous avons un dossier s3 s3: // toProcess
Chaque heure, les vérifications d'emploi du pipeline de données s'il y a de nouveaux fichiers dans s3: // toProcess
S'il y a des alors ceux-ci sont traités et supprimés (donc ils ne les traitent pas dans la prochaine heure)

Avez-vous des idées sur la façon d'y parvenir?

Source

2016-06-23 sumit

Lors de la création d'un nouveau AWS Data Pipeline, il est possible d'utiliser un modèle prédéfini. Pour ce dont vous avez besoin, le modèle Load Data from S3 Into Redshift devrait vous aider à y parvenir. Vous devrez ajouter une activité qui ressemble à described here pour supprimer ces fichiers.

Source

2016-06-29 19:52:16 JustinDoesWork

AWS Datapipeline - Importer des fichiers nommés au hasard dans un compartiment s3 à Redshift

Répondre

Questions connexes