2016-12-26 2 views
0

Pour un document de recherche, j'utiliserai un modèle de lasso pour effectuer la classification et la sélection des caractéristiques. Je me prépare à utiliser le codage à chaud unique pour traiter mes données catégoriques et je devrai déterminer quelle fonction correspond aux valeurs catégorielles d'origine afin de déterminer quelles caractéristiques ont finalement été sélectionnées pour le modèle final. J'ai été googling cette question pendant un moment mais n'ai pas trouvé une réponse.Comment le codage à un seul codage de scikit attribue-t-il des variables factices?

Comment le codage à chaud unique de scikit affecte-t-il des valeurs? Par exemple, disons que mes valeurs catégorielles pour une certaine variable sont {1, 2, 3, 4}. Est-ce que l'encodage un-chaud les organise en ordre chronologique (c.-à-d. Chute 1, premier mannequin pour la valeur 2, deuxième mannequin pour la valeur 3 et troisième mannequin pour la valeur 4) ou assigné selon l'ordre dans lequel il trouve différentes valeurs nominales comme il balaye le long des rangées (par exemple, la première observation a une valeur 3 et la deuxième observation a une valeur de 2, donc 3 est supprimé et la première factice devient la valeur 2)?

Merci!

Répondre

1

de un coup d'œil rapide à the source il me semble qu'ils finissent dans l'ordre par la valeur entière, mais comme ceci n'est pas documenté, vous ne pouvez pas compter sur ceci: cela ne fait pas partie du contrat, si vous avez besoin de savoir quelle valeur finit où je suggère d'écrire votre propre implémentation OneHot. Ne soyez pas trop dur et vous pouvez compter dessus quand vous passez à de nouvelles versions, etc.