2017-09-24 2 views
0

Tout d'abord, voici mon dataframe:la difficulté à tracer cette trame de données de fonds communs de placement

Date 2012-09-04 00:00:00 2012-09-05 00:00:00 2012-09-06 00:00:00 2012-09-07 00:00:00 2012-09-10 00:00:00 2012-09-11 00:00:00 2012-09-12 00:00:00 2012-09-13 00:00:00 2012-09-14 00:00:00 2012-09-17 00:00:00 ... 2017-08-22 00:00:00 2017-08-23 00:00:00 2017-08-24 00:00:00 2017-08-25 00:00:00 2017-08-28 00:00:00 2017-08-29 00:00:00 2017-08-30 00:00:00 2017-08-31 00:00:00 2017-09-01 00:00:00 Type 
AABTX 9.73 9.73 9.83 9.86 9.83 9.86 9.86 9.96 9.98 9.96 ... 11.44 11.45 11.44 11.46 11.46 11.47 11.47 11.51 11.52 Hybrid 
AACTX 9.66 9.65 9.77 9.81 9.78 9.81 9.82 9.92 9.95 9.93 ... 12.32 12.32 12.31 12.33 12.34 12.34 12.35 12.40 12.41 Hybrid 
AADTX 9.71 9.70 9.85 9.90 9.86 9.89 9.91 10.02 10.07 10.05 ... 13.05 13.04 13.03 13.05 13.06 13.06 13.08 13.14 13.15 Hybrid 
AAETX 9.92 9.91 10.07 10.13 10.08 10.12 10.14 10.26 10.32 10.29 ... 13.84 13.84 13.82 13.85 13.86 13.86 13.89 13.96 13.98 Hybrid 
AAFTX 9.85 9.84 10.01 10.06 10.01 10.05 10.07 10.20 10.26 10.23 ... 14.09 14.08 14.07 14.09 14.11 14.11 14.15 14.24 14.26 Hybrid 

C'est un peu difficile à lire, mais essentiellement ceux-ci ferment juste prix pour plusieurs fonds communs de placement (638) que le Type dans la dernière colonne. Je voudrais tracer tous ces éléments sur une seule parcelle et avoir une légende indiquant le type de chaque parcelle. Je voudrais voir combien de clusters potentiels je pourrais avoir besoin. C'était la première fois que je visualisais les données, mais si vous avez d'autres recommandations, n'hésitez pas à les suggérer.

Aussi, dans ma première tentative, j'ai essayé:

parallel_coordinates(closing_data, 'Type', alpha=0.2, colormap=dark2_cmap) 
plt.show() 

Il montre juste comme un blob noir et après quelques recherches, je trouve qu'il ne gère pas un grand nombre de fonctionnalités bien.

+0

il est préférable de poster le code correspondant. – caot

Répondre

2

Ma suggestion est de transposer la trame de données, car l'horodatage vient plus naturellement en tant qu'index et vous serez en mesure d'adresser des séries chronologiques individuelles comme df.AABTX ou df['AABTX']. Avec un plus petit nombre de séries temporelles, vous pourriez avoir essayé df.plot(), mais quand il est assez grand, vous ne devriez pas être surpris de voir un peu de désordre au début. Essayez de tracer un sous-ensemble de vos données, mais assurez-vous que l'heure est dans l'index, pas dans le nom des colonnes.

1

Vous cherchez peut-être quelque chose comme le silhouette analysis qui est implémenté dans la bibliothèque d'apprentissage automatique scikit-learn. Cela devrait permettre de trouver un nombre optimal de grappes à considérer pour vos données.