J'essaye de concevoir un système qui a des données de série temporelle. Voici les exigences du système:Base de données de timeséries avec agrégation multi-colonnes
- Les données arrivent dans le système à tout moment de la journée à partir de plusieurs villes et départements.
- Ces enregistrements individuels devraient être disponibles à vie. (facultatif)
- La plupart des requêtes sont des agrégations. Cependant, ils se produisent sur plusieurs colonnes. Exemple requêtes:
- Somme de toutes les mesures sur un jour donné dans une ville
- Somme de toutes les mesures dans un (dernier) mois dans un département
- Somme de toutes les mesures dans un (dernier) semaine une ville pour un département
- Somme de toutes les mesures sur un jour donné dans un état (Etat fera également partie du dossier)
- toutes les requêtes doivent être calculées avec une latence très faible (300-500 < ms)
Voici les contraintes que j'ai:
- Je suis passé par plusieurs bases de données de séries chronologiques. D'après ce que je sais, tous nécessitent un matériel coûteux. Je voudrais savoir s'il y a moyen de le faire fonctionner avec du matériel de base.
- Je ne sais pas combien de données seront disponibles au début. Idéalement, il serait d'environ 100 Mo en pointe (par jour). Donc, je ne suis pas prêt à dépenser des centaines de dollars au début.
- Une autre idée à laquelle je pensais est d'avoir une instance Amazon RDS et d'avoir plusieurs index sur différentes colonnes et de les agréger si nécessaire. Je ne suis pas sûr si c'est une bonne idée cependant.