2016-07-12 4 views
0

J'ai besoin de construire un pipeline de données qui prend l'entrée à partir d'un fichier CSV (stocké sur S3) et "met à jour" les enregistrements dans la table RDS Aurora. Je comprends le format standard (modèle standard) pour l'insertion d'enregistrements en bloc, mais pour la mise à jour ou la suppression d'enregistrements, existe-t-il un moyen standard d'avoir ces instructions dans SqlActivity?AWS Data Pipeline - SQLActivity - instruction de mise à jour possible?

Je peux écrire une instruction de mise à jour, mais la façon dont les entrées CSV sont référencées, ce sont juste des points d'interrogation (?) Sans aucune liberté pour indexer une colonne. Faites-moi savoir si le pipeline de données peut être utilisé de cette manière? Si oui de manière spécifique, je peux consulter les colonnes CSV? Merci d'avance!

Répondre

0

Vous devrez effectuer un prétraitement de votre fichier CSV dans un script SQL contenant vos mises à jour en bloc, puis appeler SqlActivity avec une référence à votre script.

Si vous avez des inserts que vous pourriez être en mesure d'effectuer cela en utilisant les éléments suivants:

CopyActivity (http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-copyactivity.html) qui prend:

  • S3DataNode comme entrée

  • SqlDataNode comme sortie.

Si la performance n'est pas un problème, il s'agit de la solution de transport AWS Data Pipeline la plus proche de vous.

Vous pouvez vous reporter aux documents AWS Data Pipeline (http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/what-is-datapipeline.html) pour plus d'informations.