2017-05-01 2 views
0

J'ai un jeu de données collecté here. D'abord, je voulais ranger cet ensemble de données, car il montre toutes les données dans une colonne (au lieu de 10) lorsque j'utilise le read_csv de pandas. La sortie est [8784 rows x 1 columns] ce qui est faux (comment puis-je résoudre ce problème?)Correction d'un jeu de données et de la prévision des temps de création en Python avec le modèle ARMA

Deuxièmement, je voudrais examiner un simple modèle ARMA sur cet ensemble de données juste pour prévoir les valeurs de AC colonne (juste pour moi d'obtenir familier avec ce modèle et l'analyse des données) Pourriez-vous s'il vous plaît m'aider avec quelques conseils? Comment/où commencer? Que faire?

Plus d'informations au sujet de l'ensemble de données: Disons que la première ligne de cet ensemble de données montre que (par exemple) sur 01-01-2016 au moment 00:00 lorsque le outside_tem est 12 (moins de x = 20) et le humidity est de 10 (moins de 20) la La valeur de AC est désactivée. Quelle sera la valeur de AC dans des conditions similaires/différentes (humidité, out_temp, lumière, etc.) au 01-01-2017 à 12:00?

Répondre

1

utilisation méthode pd.read_fwf():

In [253]: df = pd.read_fwf(r'D:\download\comfort.csv') 

In [254]: df 
Out[254]: 
      date time humidity Outside_Temperature window light age skintemp SR AC 
0  01-01-2016 00:00  10     12  0  1 40  45 0 0 
1  01-01-2016 01:00  10     11  0  1 40  32 0 0 
2  01-01-2016 02:00  10     15  0  1 32  40 0 0 
3  01-01-2016 03:00  10     11  0  1 15  37 0 0 
4  01-01-2016 04:00  10     11  0  1 40  33 0 0 
5  01-01-2016 05:00  10     13  0  1 15  37 0 0 
6  01-01-2016 06:00  10     11  0  1 32  42 0 0 
7  01-01-2016 07:00  10     16  0  1 15  41 0 0 
8  01-01-2016 08:00  20     25  1  2 15  36 1 0 
9  01-01-2016 09:00  20     10  1  2 32  37 1 0 
...   ... ...  ...     ...  ... ... ...  ... .. .. 
8774 31-12-2016 14:00  20     12  1  2 15  33 0 0 
8775 31-12-2016 15:00  20     9  1  2 15  29 0 0 
8776 31-12-2016 16:00  30     8  1  3 40  38 0 1 
8777 31-12-2016 17:00  30     9  1  3 32  43 0 1 
8778 31-12-2016 18:00  30     12  1  3 40  30 0 1 
8779 31-12-2016 19:00  30     3  1  3 32  28 0 1 
8780 31-12-2016 20:00  10     11  0  1 40  41 0 0 
8781 31-12-2016 21:00  10     12  0  1 32  26 0 0 
8782 31-12-2016 22:00  10     6  0  1 40  30 0 0 
8783 31-12-2016 23:00  10     8  0  1 32  35 0 0 

[8784 rows x 10 columns] 
+0

Merci pour la réponse! mais maintenant quand j'essaye de les grouper je reçois une erreur, par exemple 'df.groupby ('date')' conduit à 'KeyError: 'date'' (même chose pour les autres labels) pourquoi cela se produit-il? –

+0

@SinaSh, veuillez fournir une sortie de 'print (df.columns.tolist())' – MaxU

+0

Il semble réussi à le diviser en colonnes séparées '['date', 'heure', 'humidité', 'Outside_Temperature', ' window ',' light ',' age ',' skintemp ',' SR ',' AC '] 'mais si je veux les regrouper en disons' AC' pour voir pendant quels jours et quelle heure l'AC était' on ' ça ne suit pas –