J'ai un ensemble de données quelque chose comme montré ci-dessous qui, dans le scénario réel, aura une valeur comprise entre 10000 et 1000000. Il y aurait plus de colonnes mais le problème central tourne autour de ces deux champs.Classification multi-étiquettes basée sur Python

étiquettes connues

Je connais les catégories -'Apple », 'Blueberry', 'Orange', 'Laitue'

Dataset

DataFrame 
({'ROWID':1,2,3,4,5,6,7,8,9,10], 
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit' 
,'Leaf','Avocado'], 
'Details':['Eat one a day ,doctors keep away','Like it in a muffin', 
'Tastes yummy','Like it with 
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my 
basket','Like it in a muffin','I like it it with salami','Comes from 
Mexico']})

Problème:

Je pour créer une ou plusieurs métriques en utilisant groupby sur la catégorie

Lorsque la catégorie colum n a une valeur de cellule inconnue J'ai besoin de lire le texte à partir des 'Détails' et de prédire l'étiquette la mieux adaptée à la catégorie. Par exemple

Salade -> laitue, fruits (ligne n ° 5) -> Fruit Orange (ligne n ° 8) -> Blueberry feuille (ligne n ° 9) -> 'Laitue' Il est entendu que certains les lignes peuvent être classées en .

Besoin d'aide:

Je suis un débutant dans les données algorithme de la science, à la recherche de quelques conseils pour identifier le bon modèle pour résoudre le problème.

Source

2017-09-08 Reshmi Nandy

Utilisez Naive Bayes pour la colonne Détails, avant de faire un simple filtrage sur la colonne Catégorie et supprimez les lignes ayant des valeurs de catégorie connues.

Source

2017-09-09 07:37:25 Shibaji

pouvez-vous partager le code pertinent pour que la réponse soit utile. –

Classification multi-étiquettes basée sur Python

étiquettes connues

Dataset

Problème:

Besoin d'aide:

Répondre

Questions connexes