Je suis en train de concevoir le back-end d'une start-up à partir de zéro. Nous grattons des séries chronologiques sur Internet. Nous raclons une grande quantité d'entiers chaque minute et les stockons dans des lignes avec un horodatage dans les fichiers csv.Stockage optimisé pour les grandes séries entières
Nous n'avons pas commencé à exploiter correctement les données car nous en sommes encore à la phase de conception. Je me demandais, quel serait le stockage optimal pour plusieurs années de séries entières? Nous avons commencé à chercher à le charger dans Postgres, mais sql est-il adapté pour exploiter des séries chronologiques?
Je me attendais à trouver un logiciel miracle qui serait optimal pour traiter ce genre de jeux de données spécifiques, et je serais heureux d'entendre toute suggestion qui permettrait:
- stockage persistant grand
- calcul de la moyenne/regroupement calcul, peut-être d'autres fonctions R comme
- gain en performance, la puissance ou la facilité d'utilisation par rapport au stockage de base de données SQL brute
Stack Dépassement spécifique exclut les questions concernant les recommandations logicielles. Je vais interpréter cette question comme traitant spécifiquement des séries temporelles dans Postgres. En tant que tel, pouvez-vous donner un peu plus de contexte sur ce que signifie «un grand nombre d'entiers», si vous travaillez avec des séries chronologiques régulières ou irrégulières, et plus d'informations sur le type d'étalement que vous pourriez souhaiter. "R" est l'un des logiciels statistiques les plus puissants, et il en fait beaucoup. –
* Principalement régulier, mais il ne peut pas être supposé qu'il y a des trous de données et nous pouvons avoir à rééchantillonner. Actuellement, l'un des exploits est de faire le niveau moyen heure par heure dans une semaine, par exemple. Je ne recherche pas de recommandation de logiciel spécifique, il s'agit plutôt de demander si elle existe ou non en opensource. –
Il n'y a pas beaucoup d'informations sur les données elles-mêmes, car c'est vraiment stupide. Chaque minute, environ 8000 nombres entiers circulent, c'est tout ce qu'il y a à faire. –