2017-09-22 6 views
0

Je suis assez nouveau à WEKA, et j'ai un jeu de données de 111 cases avec 109 attributes. J'utilise l'onglet de sélection des fonctionnalités dans WEKA avec CfsSubsetEval et BestFirst search method pour feature selection. J'utilise leave-one-out cross-validation.Combien et/ou quels critères CfsSubsetEvaluator utilise-t-il dans la sélection des entités à chaque étape de la validation croisée lors de la sélection des fonctionnalités?

Alors, combien de fonctionnalités ne WEKA choisir ou quel est le critère d'arrêt pour le nombre de caractéristiques de cette méthode permet de sélectionner dans chaque étape de validation croisée

Merci,

Gopi

Répondre

0

L'algorithme CfsSubsetEval est à la recherche d'un sous-ensemble de caractéristiques qui fonctionnent bien ensemble (avoir une faible corrélation entre les caractéristiques et une forte corrélation avec l'étiquette cible). Le score du sous-ensemble est appelé mérite (vous pouvez le voir dans la sortie). La recherche BestFirst ne vous permettra pas de déterminer le nombre de fonctionnalités à sélectionner. Toutefois, vous pouvez utiliser d'autres méthodes telles que GreedyStepWise ou utiliser les algorithmes InformationGain/GainRatio avec Ranker et définir la taille de l'ensemble de fonctions.

Une autre option que vous pouvez utiliser pour influencer la taille de l'ensemble est la direction de la recherche (avant, arrière ...).

Bonne chance

+0

Merci pour votre explication. J'ai encore un doute: dans 'WEKA' pour' BestFirst' méthode de recherche 'parameters' il dit _ ** searchTermination - Spécifier le nombre de nœuds consécutifs non-amélioration pour permettre avant de terminer la recherche ** _. Est-ce comme le critère d'arrêt du nombre d'entités à chaque étape de la validation croisée? Pouvez-vous s'il vous plaît expliquer – Gopi

+0

Comme je l'ai dit, l'algorithme calcule le score «mérite» de chaque sous-ensemble. Le BestFirst est presque gourmand. Le paramètre détermine le nombre d'essais pour trouver un meilleur sous-ensemble si les précédents n'ont pas amélioré le score. Quand il atteint un sous-ensemble, il ne peut pas s'améliorer - il s'arrêtera et retournera le meilleur ensemble trouvé. – AndreyF