2017-10-19 13 views
0

Je travaille sur un problème de classification, en utilisant un modèle de régression logistique en Python (scikit learn). Une de mes caractéristiques est le genre. Dans l'ensemble de données original, cette variable est une chaîne (homme, femme). J'ai utilisé la méthode get_dummies des pandas et j'ai créé 2 colonnes avec des valeurs de 0,1. Un pour chaque classe.Variable fictive avec 2 classes. Devrait-il être dans une ou plusieurs colonnes?

Ma question est, dois-je utiliser 2 colonnes différentes, ou une seule colonne comme le mâle (0,1)?

Répondre

2

Personnellement, j'aime utiliser une colonne n - 1 pour un champ avec les catégories n. Lorsque vous utilisez la méthode get_dummies, cela signifie que drop_first est défini sur Vrai.

Pour autant que j'aime faire cela; un ancien instructeur à moi l'explique assez bien dans sa réponse à one hot encoding vs dummy encoding in sckikit learn. Fondamentalement, il se résume à éliminer la colinéarité.