2016-09-09 5 views
1

Je travaille sur un ensemble de données où la plupart des variables sont des variables catégorielles. Certaines variables ont même 5 catégories. Est-il possible d'implémenter l'algorithme knn dans une situation comme celle-ci? Si oui, comment puis-je procéder avec ces variables catégoriques? Dois-je les normaliser? J'utilise R et ce serait une aide si quelqu'un pouvait me diriger vers une source.Comment l'algorithme KNN peut-il être appliqué aux variables catégorielles?

+0

Comment définiriez-vous une fonction de distance pour les variables catégorielles? – Matt

Répondre

3

Votre première étape consistera à choisir une fonction de distance/dissemblance entre vos observations.

Une option consiste à transformer vos variables catégorielles en variables binaires factices, puis à calculer la distance Jaccard entre chaque paire de lignes. Here est un tutoriel simple pour ces étapes.

Une fois que vous avez une distance définie, vous pouvez procéder à l'algorithme KNN comme d'habitude. Je ne suis pas sûr s'il y a des paquets implémentant ceci dans R ou si vous devriez le programmer vous-même. Ne devrait pas être si compliqué