2017-10-17 5 views
1

Contexte:bonne façon d'estimer l'erreur de test d'un modèle optimisé

Selon le flux de travail recommandé par Muller « Introduction à l'apprentissage machine avec python », on ferait une seule évaluation de score sur un ensemble de test qui a été laissé de côté au début du processus:

enter image description here

Ceci a l'avantage d'obtenir un modèle donné avec ses hyperparam'etres définies, sur la validation croisée imbriquée qui pourrait utiliser des modèles multiples (différents).

L'évaluation sur un seul ensemble de test donne un estimateur qui présente une variance élevée.

La question:

Est-il possible d'obtenir une meilleure estimation d'erreur de généralisation que ce score unique? (même si cette méthode nécessite plus d'itérations de formation)

Répondre

1

Le flux de travail est parfait, mais je pense que votre modèle a besoin de travail. Vous pouvez diviser l'ensemble de données dans l'ensemble Entraînement/Validation/Test. Ensuite, vous pouvez vous entraîner sur vos données d'entraînement en utilisant la validation croisée, continuer à tester sur l'ensemble de validation jusqu'à ce que vous obteniez de bons résultats et ensuite, en dernière étape, utiliser les données de test.