0

Je souhaite donc exporter une table DynamoDB entière vers S3. Ce tutorial donne une bonne explication de la façon de le faire. Je l'ai fait un test, ça a marché ... génialExportation RAPIDE d'une table DB dynamo vers S3

Cependant maintenant je veux l'utiliser sur mes données de production qui est considérable (> 100GB). Et je veux que ça marche vite. Évidemment, le débit en lecture sur ma table DynamoDB est un facteur ici, mais est-il un moyen de s'assurer que le pipeline de données fait tout ce qu'il peut. Je ne suis pas très familier avec ceux-ci, la vue de l'architecte après la configuration a des zones pour les types d'instance et le nombre d'instances, mais augmentera ces diminuer mon temps de pipeline? Le tutoriel ne mentionne rien sur la vitesse, sauf pour spécifier le débit de la table que vous avez l'intention d'utiliser. Est-ce que l'échelle sera automatiquement basée sur cela?

Répondre

0

Le modèle est basé sur les échantillons open source que l'équipe datapipeline a sur gihub. Le modèle auquel vous faites référence est here.

Si vous jetez un coup d'œil à la définition du pipeline, vous constaterez que l'exportation se fait via un travail de réduction de la carte. L'évolutivité du travail d'exportation doit être gérée par cela.

Si vous souhaitez obtenir plus de détails sur le fonctionnement du DME avec DynamoDB, vous le trouverez au here. Si vous augmentez le nombre d'instances, vous devrez ajuster le débit de votre table en conséquence pour augmenter le parallélisme de l'exportation.