2016-06-23 2 views
0

J'ai un cas d'utilisation où les nouveaux fichiers peuvent apparaître dans un dossier s3 à tout moment et nous aimerions les importer dans Redshift via le RedshiftCopyActivity. J'ai une configuration de pipeline où nous pouvons déplacer des données de s3 à Redshift - mais avec des fichiers qui sont spécifiquement nommés. Cependant, dans ce cas, les noms de fichiers peuvent être aléatoires. Je pense à quelque chose commeAWS Datapipeline - Importer des fichiers nommés au hasard dans un compartiment s3 à Redshift

  • Disons que nous avons un dossier s3 s3: // toProcess
  • Chaque heure, les vérifications d'emploi du pipeline de données s'il y a de nouveaux fichiers dans s3: // toProcess
  • S'il y a des alors ceux-ci sont traités et supprimés (donc ils ne les traitent pas dans la prochaine heure)

Avez-vous des idées sur la façon d'y parvenir?

Répondre