2010-04-19 9 views
4

J'ai un enregistreur de données non lié à l'ordinateur, qui recueille des données du champ. Ces données sont stockées sous forme de fichiers texte et je regroupe manuellement les fichiers et les organise. Le format actuel est à travers un fichier csv par an et par enregistreur. Chaque fichier est d'environ 4 000 000 lignes x 7 loggers x 5 ans = beaucoup de données. certaines des données sont organisées en type item_type, item_class, item_dimension_class, et d'autres données sont plus uniques, telles que item_weight, item_color, date_collected, et ainsi de suite ...Analyse statistique sur un grand ensemble de données à publier sur le Web

Actuellement, je fais une analyse statistique sur les données en utilisant un programme python/numpy/matplotlib J'ai écrit. Cela fonctionne très bien, mais le problème est que je suis le seul à pouvoir l'utiliser, étant donné que les données sont stockées sur mon ordinateur.

Je voudrais publier les données sur le web en utilisant un postgres db; Cependant, j'ai besoin de trouver ou de mettre en œuvre un outil statistique qui prendra une grande table postgres, et de retourner les résultats statistiques dans un laps de temps adéquat. Je ne suis pas familier avec python pour le web; Cependant, je suis compétent avec PHP sur le web, et Python sur le côté hors ligne.

les utilisateurs doivent être autorisés à créer leurs propres histogrammes, l'analyse des données. Par exemple, un utilisateur peut rechercher tous les articles livrés en bleu entre la semaine x et la semaine y, tandis qu'un autre utilisateur peut effectuer une recherche pour trier la distribution de poids de tous les articles par heure pendant toute l'année. Je pensais créer et indexer mes propres outils statistiques, ou automatiser le processus d'une manière ou d'une autre pour émuler la plupart des requêtes. Cela semblait inefficace.

Je suis impatient d'entendre vos idées

Merci

Répondre

1

Je pense que vous pouvez utiliser votre combinaison actuelle (python/numpy/de matplotlib) entièrement si le nombre d'utilisateurs ne sont pas trop gros. Je fais des travaux similaires, et mes données ont un peu plus de 10g. Les données sont stockées dans quelques fichiers sqlite, et j'utilise numpy pour analyser les données, PIL/matplotlib pour générer des fichiers graphiques (png, gif), cherrypy comme serveur web, mako comme langage de modèle. Si vous avez besoin de plus de base de données serveur/client, vous pouvez migrer vers postgresql, mais vous pouvez toujours utiliser pleinement vos programmes actuels si vous utilisez un framework web python, comme cherrypy.

+0

Eh bien merci pour la suggestion .. croisant les doigts – dassouki

Questions connexes