0

Comment traiter uniquement les nouveaux fichiers à l'aide du pipeline de données AWS et du DME? Je peux avoir un nombre différent de fichiers dans mon répertoire source. Je veux les traiter en utilisant AWS data pipeline et EMR comme un fichier après un autre fichier. Je ne suis pas sûr de savoir comment la pré-condition "existe" ou "l'activité de commande de Shell" peut résoudre ce problème. Veuillez suggérer un moyen de traiter une liste delta de fichiers en ajoutant des étapes EMR ou en créant des clusters EMR pour chaque fichier.Comment traiter uniquement les fichiers delta dans aws datapipeline et EMR

Répondre

0

La manière dont cela est généralement effectué dans la ligne de données consiste à utiliser des expressions de planification lors de la référence au répertoire source. Par exemple,

si votre pipeine est prévue pour exécuter toutes les heures et que vous spécifiez "s3: // seau/# {Format (minusMinutes (@ ScheduledStartTime, 60), 'AAAA-MM-JJ hh')}"

comme le répertoire d'entrée, datapipeline résoudra cela à "s3: // bucket/2016-10-23-16" quand il fonctionne à l'heure 17. Ainsi, le travail ne lira que les données correspondant à l'heure 16. Si vous pouvez structurer votre entrée pour produire des données de cette manière, cela peut être utilisé. Voir http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-pipeline-expressions.html pour plus d'exemples d'expressions.

Malheureusement, il n'y a pas de support intégré "obtenir des données depuis le dernier traitement".