2011-05-02 4 views
2

J'ai des ensembles de données d'apprentissage et plusieurs ensembles de tests (je classe des instances dans un cadre de classification, de sorte que les instances de l'ensemble de test sont calculées à la volée).WEKA: problème avec les échelles d'attributs

Les attributs d'instances ont des échelles différentes (la première varie de 0 à 1 et la seconde de 0 à 100).

Comment mes classificateurs (régression logistique et SMO) traitent-ils le fait qu'ils n'ont pas tout l'ensemble de test en même temps? En d'autres termes, comment traitent-ils différents attributs d'échelle s'ils ne savent pas quelle est la valeur maximale dans l'ensemble de test?

grâce

Répondre

1

Selon le Weka Javadocs, SMO « normalise tous les attributs par défaut. (Notez que les coefficients de la sortie sont basés sur les données normalisées/normalisées, les données originales.) » Ie, vous Vous obtiendrez une normalisation erronée si votre ensemble d'entraînement ne couvre pas toute la gamme pour chaque attribut. Cela dépend de vos données.

Je vous suggère de vous entraîner avec et sans normalisation (utilisez setFeatureSpaceNormalization(false) pour l'éteindre) et de voir ce qui fonctionne le mieux.