J'ai exporté une table DynamoDB à l'aide d'un pipeline de données AWS avec DataNodes> S3BackupLocation> Compression définie sur GZIP
. Je m'attendais à une sortie compressée avec une extension .gz
, mais j'ai obtenu une sortie non compressée sans extension.Exportation DynamoDB en tant que gzippé JSON
Further reading indique que le champ de compression "est uniquement pris en charge pour une utilisation avec Amazon Redshift et lorsque vous utilisez S3DataNode avec CopyActivity".
Comment puis-je obtenir une sauvegarde gzippée de ma table DynamoDB dans S3? Dois-je recourir au téléchargement de tous les fichiers, à leur téléchargement et à leur téléchargement? Y a-t-il un moyen de faire fonctionner le pipeline avec CopyActivity? Est-ce qu'il y a une meilleure approche?
J'ai expérimenté avec l'utilisation de Hive pour l'exportation, mais je n'ai pas encore trouvé un moyen d'obtenir le bon formatage sur la sortie. Il doit correspondre au format ci-dessous afin que les travaux EMR puissent le lire avec les données d'une autre source.
{"col1":{"n":"596487.0550532"},"col2":{"s":"xxxx-xxxx-xxxx"},"col3":{"s":"xxxx-xxxx-xxxx"}}
{"col1":{"n":"234573.7390354"},"col2":{"s":"xxxx-xxxx-xxxx"},"col3":{"s":"xxxx-xxxxx-xx"}}
{"col2":{"s":"xxxx-xxxx-xxxx"},"col1":{"n":"6765424.7390354"},"col3":{"s":"xxxx-xxxxx-xx"}}