J'ai un ensemble de données de ce type.Comment former un classificateur Sklearn avec un ensemble de données ayant une dimension de caractéristique variable?
Ingredient_A | Ingredient_B | Ingredient_C | Ingredient_D | Meal
------------------------------------------------------------------
Bread | Butter | - | - | buttered bread
Avocado | Tomato | Garlic | - | Guacamloe
Je veux former une décision sklearn Arbre classificateur avec elle, mais je ne sais pas comment faire face à la fonction variant dimensionnalité de mon jeu de données. Idéalement, je voudrais que les cellules vides soient ignorées. J'ai pensé à remplacer les cellules vides par nan, mais sklearn n'accepte pas nan. Existe-t-il un moyen d'utiliser un ensemble de données comme celui-ci avec sklearn?
Je crois que vous pouvez utiliser des matrices creuses pour cela – mkaran