2017-06-21 2 views
-2

J'ai une petite question ici. Je veux savoir quand et dans quelle situation utiliser un encodage à chaud et quand utiliser une variable fictive.Quand utiliser un codage à chaud et quand utiliser une variable fictive?

J'ai l'intention de faire une analyse de classification avec des variables catégorielles et numériques. J'ai lu dans un forum que je peux essayer d'encoder les variables catégoriques en utilisant un codage à chaud. Mais je me demande ce qui le rend différent avec la variable dummy.

Merci

+0

À mon avis c'est la même chose. Les variables encodées à chaud unique sont les variables identiques [https://www.reddit.com/r/MLQuestions/comments/5bhmvz/whats_the_difference_between_one_hot_encoding_and/). –

Répondre

0

La plupart des algorithmes de clustering seront basés sur la distance. Un tel codage est un hack pour donner l'impression que les données catégorielles sont numériques, mais cela ne fait que retarder les problèmes qui en résultent: comment normaliser, pondérer, décorréler et combiner des fonctions.

Pour la plupart des algorithmes de clustering, il est extrêmement difficile de savoir si vous codez 0,1 ou 0,1000000 ou 0,00000001. Alors lequel devriez-vous utiliser? Il n'y a pas de réponse mathématique objective à cela, et cela cause de graves problèmes.

0

La principale différence est que le codage factice supprime généralement l'une des colonnes. Par exemple. une variable avec 3 niveaux va obtenir 2 variables fictives et 3 variables codées à chaud. C'est pour s'assurer que vous n'avez pas de multicolinéarité. Le codage à chaud unique est parfois appelé codage fictif complet