Comment former un classificateur Sklearn avec un ensemble de données ayant une dimension de caractéristique variable?

J'ai un ensemble de données de ce type.Comment former un classificateur Sklearn avec un ensemble de données ayant une dimension de caractéristique variable?

Ingredient_A | Ingredient_B | Ingredient_C | Ingredient_D | Meal 
------------------------------------------------------------------ 
    Bread  | Butter  |  -  |  -  | buttered bread 
    Avocado | Tomato  |  Garlic |  -  | Guacamloe

Je veux former une décision sklearn Arbre classificateur avec elle, mais je ne sais pas comment faire face à la fonction variant dimensionnalité de mon jeu de données. Idéalement, je voudrais que les cellules vides soient ignorées. J'ai pensé à remplacer les cellules vides par nan, mais sklearn n'accepte pas nan. Existe-t-il un moyen d'utiliser un ensemble de données comme celui-ci avec sklearn?

Source

2017-06-16 SPA

Je crois que vous pouvez utiliser des matrices creuses pour cela – mkaran

Vous devez encoder vos données en tant que vecteurs comme par exemple:

(Avocado, Bread, Butter, Garlic, Tomato) 
(0,1,1,0,0) = 'Buttered Bread' 
(1,0,0,1,1) = 'Guacamloe'

Chaque élément dans le vecteur représente la présence d'un ingrédient particulier. Vous pouvez directement alimenter les données de ce format dans n'importe quel classificateur, et vous n'aurez aucun problème avec l'ordre implicite.

Source

2017-06-16 15:15:55

Comment former un classificateur Sklearn avec un ensemble de données ayant une dimension de caractéristique variable?

Répondre

Questions connexes