Vous demandez peut-être quelque chose de plus spécifique, mais en général:
Vous construisez l'arbre de décision avec l'ensemble de la formation, et vous évaluez les performances de cet arbre en utilisant l'ensemble de test. En d'autres termes, sur les données de test, vous appelez une fonction généralement nommée quelque chose comme c * lassify *, passant dans l'arbre nouvellement construit et un point de données (dans votre ensemble de test) que vous souhaitez classer. Cette fonction renvoie le nœud feuille (terminal) de votre arborescence à laquelle appartient ce point de données. En supposant que le contenu de cette feuille est homogène (rempli avec les données d'une classe unique, pas un mélange), vous avez en substance attribué une étiquette de classe à ce point de données. Lorsque vous comparez cette étiquette de classe affectée par l'arborescence à l'étiquette de classe réelle du point de données et que vous la répétez pour toutes les instances de votre jeu de test, vous disposez d'une métrique pour évaluer les performances de votre arborescence.
Règle générale: mélangez vos données, puis attribuez 90% au jeu d'apprentissage et 10% à un jeu de test.
Mieux que quoi? Quelle méthode utilisez-vous? Qu'avez-vous fait jusqu'ici? – Terrance
J'ai utilisé l'outil C5.0. Il est très facile de spécifier le jeu de données d'entraînement et de test. mais en weka, je n'ai pas trouvé une telle option. – Neo182