J'ai un ensemble de données quelque chose comme montré ci-dessous qui, dans le scénario réel, aura une valeur comprise entre 10000 et 1000000. Il y aurait plus de colonnes mais le problème central tourne autour de ces deux champs.Classification multi-étiquettes basée sur Python
étiquettes connues
Je connais les catégories -'Apple », 'Blueberry', 'Orange', 'Laitue'
Dataset
DataFrame
({'ROWID':1,2,3,4,5,6,7,8,9,10],
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit'
,'Leaf','Avocado'],
'Details':['Eat one a day ,doctors keep away','Like it in a muffin',
'Tastes yummy','Like it with
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my
basket','Like it in a muffin','I like it it with salami','Comes from
Mexico']})
Problème:
Je pour créer une ou plusieurs métriques en utilisant groupby sur la catégorie
Lorsque la catégorie colum n a une valeur de cellule inconnue J'ai besoin de lire le texte à partir des 'Détails' et de prédire l'étiquette la mieux adaptée à la catégorie. Par exemple
- Salade -> laitue, fruits (ligne n ° 5) -> Fruit Orange (ligne n ° 8) -> Blueberry feuille (ligne n ° 9) -> 'Laitue' Il est entendu que certains les lignes peuvent être classées en .
Besoin d'aide:
Je suis un débutant dans les données algorithme de la science, à la recherche de quelques conseils pour identifier le bon modèle pour résoudre le problème.
pouvez-vous partager le code pertinent pour que la réponse soit utile. –