1

J'ai un ensemble de données de ce type.Comment former un classificateur Sklearn avec un ensemble de données ayant une dimension de caractéristique variable?

Ingredient_A | Ingredient_B | Ingredient_C | Ingredient_D | Meal 
------------------------------------------------------------------ 
    Bread  | Butter  |  -  |  -  | buttered bread 
    Avocado | Tomato  |  Garlic |  -  | Guacamloe 

Je veux former une décision sklearn Arbre classificateur avec elle, mais je ne sais pas comment faire face à la fonction variant dimensionnalité de mon jeu de données. Idéalement, je voudrais que les cellules vides soient ignorées. J'ai pensé à remplacer les cellules vides par nan, mais sklearn n'accepte pas nan. Existe-t-il un moyen d'utiliser un ensemble de données comme celui-ci avec sklearn?

+0

Je crois que vous pouvez utiliser des matrices creuses pour cela – mkaran

Répondre

1

Vous devez encoder vos données en tant que vecteurs comme par exemple:

(Avocado, Bread, Butter, Garlic, Tomato) 
(0,1,1,0,0) = 'Buttered Bread' 
(1,0,0,1,1) = 'Guacamloe' 

Chaque élément dans le vecteur représente la présence d'un ingrédient particulier. Vous pouvez directement alimenter les données de ce format dans n'importe quel classificateur, et vous n'aurez aucun problème avec l'ordre implicite.