2017-09-08 5 views
0

J'ai un ensemble de données quelque chose comme montré ci-dessous qui, dans le scénario réel, aura une valeur comprise entre 10000 et 1000000. Il y aurait plus de colonnes mais le problème central tourne autour de ces deux champs.Classification multi-étiquettes basée sur Python

étiquettes connues

Je connais les catégories -'Apple », 'Blueberry', 'Orange', 'Laitue'

Dataset

DataFrame 
({'ROWID':1,2,3,4,5,6,7,8,9,10], 
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit' 
,'Leaf','Avocado'], 
'Details':['Eat one a day ,doctors keep away','Like it in a muffin', 
'Tastes yummy','Like it with 
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my 
basket','Like it in a muffin','I like it it with salami','Comes from 
Mexico']}) 

Problème:

Je pour créer une ou plusieurs métriques en utilisant groupby sur la catégorie

Lorsque la catégorie colum n a une valeur de cellule inconnue J'ai besoin de lire le texte à partir des 'Détails' et de prédire l'étiquette la mieux adaptée à la catégorie. Par exemple

  • Salade -> laitue, fruits (ligne n ° 5) -> Fruit Orange (ligne n ° 8) -> Blueberry feuille (ligne n ° 9) -> 'Laitue' Il est entendu que certains les lignes peuvent être classées en .

Besoin d'aide:

Je suis un débutant dans les données algorithme de la science, à la recherche de quelques conseils pour identifier le bon modèle pour résoudre le problème.

Répondre

0

Utilisez Naive Bayes pour la colonne Détails, avant de faire un simple filtrage sur la colonne Catégorie et supprimez les lignes ayant des valeurs de catégorie connues.

+0

pouvez-vous partager le code pertinent pour que la réponse soit utile. –