2016-09-12 2 views
0

Quelqu'un peut-il m'aider avec ce problème? Je suis en train d'apprendre les concepts de clustering de KMeans. Je sais comment regrouper si les variables sont continues. Mais cet ensemble de données contient des variables catégorielles/discrètes comme le genre et le code postal.Clusters KMeans pour les données variables mixtes suivantes

Sno Age Gender Zip Salary 
1 26 0 9822 100 
2 38 1 9822 700 
3 19 1 9822 100 
4 64 0 9810 2500  
5 53 1 9810 1200 
6 75 1 9810 1800 
7 19 0 9822 75 
8 36 1 9822 350 
9 42 1 9875 1800 
10 41 0 9875 750 

Répondre

0

K-Means fonctionne uniquement avec des données numériques. K-means échoue pour les données catégoriques, car prendre la moyenne des données catégorielles n'a aucun sens. Ni la distance. Certaines personnes exécutent les données sur K-means en utilisant un codage à chaud. Mais cela aussi ne donne pas les bons groupes.

Pour résoudre ce genre de problème, vous pouvez regarder une autre variante de K-Means appelée l'algorithme K-Prototype qui fonctionne bien pour un mélange de données catégorielles et numériques.

Découvrez https://pypi.python.org/pypi/kmodes/

Ce lien contient le papier et le paquet python pour l'utilisation de cet algorithme. C'est facile à comprendre aussi.