Pour un document de recherche, j'utiliserai un modèle de lasso pour effectuer la classification et la sélection des caractéristiques. Je me prépare à utiliser le codage à chaud unique pour traiter mes données catégoriques et je devrai déterminer quelle fonction correspond aux valeurs catégorielles d'origine afin de déterminer quelles caractéristiques ont finalement été sélectionnées pour le modèle final. J'ai été googling cette question pendant un moment mais n'ai pas trouvé une réponse.Comment le codage à un seul codage de scikit attribue-t-il des variables factices?
Comment le codage à chaud unique de scikit affecte-t-il des valeurs? Par exemple, disons que mes valeurs catégorielles pour une certaine variable sont {1, 2, 3, 4}. Est-ce que l'encodage un-chaud les organise en ordre chronologique (c.-à-d. Chute 1, premier mannequin pour la valeur 2, deuxième mannequin pour la valeur 3 et troisième mannequin pour la valeur 4) ou assigné selon l'ordre dans lequel il trouve différentes valeurs nominales comme il balaye le long des rangées (par exemple, la première observation a une valeur 3 et la deuxième observation a une valeur de 2, donc 3 est supprimé et la première factice devient la valeur 2)?
Merci!