2016-12-26 1 views
0

J'ai un ensemble de données classifiées avec trois étiquettes, 'd', 'e' et 'k'. Je veux former un classificateur pour identifier 'd' et les retirer de l'ensemble de données, puis identifier 'e'. Actuellement, je divise les données en trois, que j'appellerai X1, X2, X3. Je forme un apprenant L1 sur X1, j'utilise cet apprenant pour enlever les étiquettes «d» sur X2, que j'utilise ensuite pour former un deuxième apprenti L2, que je teste sur X3. Est-ce une approche raisonnable et existe-t-il une norme reconnue dans ce genre de scénario?Validation croisée avec deux algorithmes différents sur un même ensemble de données

+0

Pourquoi devez-vous supprimer 'd' avant de trouver 'e'? Est-ce que cela améliore les performances d'une certaine façon? (Si c'est le cas, ce n'est pas nécessairement une approche que je prendrais) – etov

+0

Je ne sais pas vraiment/je ne me souviens pas s'il y a une amélioration de la performance qui aborde le problème de cette façon. Laissez-moi vérifier et je posterai les "résultats". – johnklawlor

+0

À la réflexion, je ne comprends pas le but ici. Avez-vous l'intention de mesurer la performance du classificateur? ou pour supprimer réellement 'd' et identifier 'e' sur certaines données non annotées? – etov

Répondre

0

Généralement, il existe deux techniques populaires pour évaluer les performances de votre classificateur: la validation croisée, qui utilise l'intégralité de l'ensemble de données (en utilisant plusieurs «plis» des données) et l'ensemble de sortie qui exclut certaines données de la formation pour l'évaluation. Typiquement, l'ensemble de rétention est beaucoup plus petit que les données utilisées pour la formation (par exemple 80/20 ou 70/30).

Dans ce cas, une option consisterait à conserver un jeu de rétention; faire les apprentissages et les changements sur l'ensemble d'apprentissage, c'est-à-dire former un classificateur, supprimer les éléments «d», former un autre classificateur, identifier les éléments «e»; Ensuite, testez le processus complet par rapport à votre jeu de rétention.