2017-03-28 5 views
2

J'essaie de classer une donnée en utilisant Algorithme d'apprentissage supervisé.

Tout fonctionne bien, mais juste pour ma curiosité, j'ai essayé 6 algorithmes de classification simultanément sur un seul ensemble de données. Les étapes suivies sont comme suit-

Algorithmes d'apprentissage automatique supervisés

1> Former tous les algorithmes.
2> a prédit le résultat (1 ou 0) pour tous les tests_données individuellement, par tous les algorithmes.
3> Si la plupart des algos a donné , je considère le résultat de cette paire de données pour être , de même pour résultat .
4> Puis j'ai découvert la précision globale.


Je me attendais à la précision globale à être plus élevés alors les résultats individuels (par chaque algorithme travaillant individuellement), mais je m'y suis presque la précision moyenne. (Moyenne signifie ici moyenne de exactitudes de algos individuels).

Quelqu'un peut-il s'il vous plaît aidez-moi à trouver la raison?

+0

Avez-vous envisagé la possibilité que tous vos classificateurs échouent sur les mêmes exemples de formation? – karl71

+0

Comment faire cela? –

+2

Le terme que vous voulez est "ensemble vote". Jetez un oeil à http://scikit-learn.org/stable/modules/ensemble.html#votingclassifier –

Répondre

2

Cela dépend des algorithmes que vous avez choisis. De nombreux algorithmes sont sensibles à différentes choses. Par exemple, k-means, SVM linéaire et clustering d'itération de puissance obtiendront des résultats nettement différents.

Vous avez obtenu ce que vous avez demandé: vous avez fait la moyenne des votes, sans coordonner les algorithmes en aucune façon. Vous avez un résultat moyen.

Je doute que la moyenne pondérée aidera beaucoup; tout ce que vous faites, c'est former un méta-modèle. Au lieu de cela, considérez l'ensemble de données que vous avez. Vous devez rechercher des algorithmes de modélisation et en choisir un qui a tendance à bien fonctionner sur la forme statistique de votre ensemble de données par rapport à l'objectif souhaité. Puisque vous ne nous avez donné aucun de ces antécédents, nous ne pouvons pas vous aider avec des détails.

+0

ensemble de données est juste un exemple de jeu de données sur les courriels. Quelles sont les autres approches pour augmenter la précision? –

+0

Encore une fois, cela dépend des détails de ce que vous faites - ce que vous n'avez pas donné. – Prune