Nous avons une exigence dans laquelle nous enregistrons les événements dans une table DynamoDB lorsqu'une annonce est exposée à l'utilisateur final. Il y a plus de 250 écritures dans cette table par seconde dans la table dynamoDB.Comment utiliser Apache Streaming avec DynamoDB Stream
Nous souhaitons agréger et déplacer ces données vers Redshift pour l'analyse.
Le flux DynamoDB sera appelé pour chaque insertion faite dans la table je suppose. Comment puis-je alimenter le flux DynamoDB en une sorte de lots et ensuite traiter ces lots. Existe-t-il des bonnes pratiques concernant ce type de cas d'utilisation? Je lisais à propos de l'étincelle apache et il me semble qu'avec Apache Spark nous pouvons faire ce genre d'agrégation. Mais le flux d'étincelles Apache ne lit pas le flux DynamoDB.
Toute aide ou pointeur est appréciée.
Merci
Salut Ivan, merci pour la réponse. Mes tables sont énormes contenant plus de 150 millions de lignes. C'est la raison pour laquelle je ne veux pas charger toutes les tables dynamoDB en utilisant la commande de copie fournie par redshift. Je voulais faire une copie incrémentale de dynamoDB à redshift et, ce faisant, agréger les données. –
Ensuite, le traitement de flux est une option vraiment viable. Utilisez l'adaptateur Apache Flink/Spark et Kinesis pour faire l'affaire. –
J'ai trouvé ce https://github.com/awslabs/dynamodb-streams-kinesis-adapter pour convertir le flux dynamoDB en flux Kinesis. Comment puis-je planifier cette application? Cron travail sur EC2? –