Variable fictive avec 2 classes. Devrait-il être dans une ou plusieurs colonnes?

2017-10-19 13 views 0 likes

Je travaille sur un problème de classification, en utilisant un modèle de régression logistique en Python (scikit learn). Une de mes caractéristiques est le genre. Dans l'ensemble de données original, cette variable est une chaîne (homme, femme). J'ai utilisé la méthode get_dummies des pandas et j'ai créé 2 colonnes avec des valeurs de 0,1. Un pour chaque classe.Variable fictive avec 2 classes. Devrait-il être dans une ou plusieurs colonnes?

Ma question est, dois-je utiliser 2 colonnes différentes, ou une seule colonne comme le mâle (0,1)?

Source

2017-10-19 Legos

Répondre

Personnellement, j'aime utiliser une colonne n - 1 pour un champ avec les catégories n. Lorsque vous utilisez la méthode get_dummies, cela signifie que drop_first est défini sur Vrai.

Pour autant que j'aime faire cela; un ancien instructeur à moi l'explique assez bien dans sa réponse à one hot encoding vs dummy encoding in sckikit learn. Fondamentalement, il se résume à éliminer la colinéarité.

Source

2017-10-19 19:09:33 Grr

Variable fictive avec 2 classes. Devrait-il être dans une ou plusieurs colonnes?

Répondre

Questions connexes