Je travaille sur un problème de classification, en utilisant un modèle de régression logistique en Python (scikit learn). Une de mes caractéristiques est le genre. Dans l'ensemble de données original, cette variable est une chaîne (homme, femme). J'ai utilisé la méthode get_dummies des pandas et j'ai créé 2 colonnes avec des valeurs de 0,1. Un pour chaque classe.Variable fictive avec 2 classes. Devrait-il être dans une ou plusieurs colonnes?
Ma question est, dois-je utiliser 2 colonnes différentes, ou une seule colonne comme le mâle (0,1)?