2016-11-22 1 views
1

J'ai des caractéristiques avec 18 dimensions après avoir fait la sélection de caractéristiques et sera utilisé pour former classificateur, RNN, HMM, etc.Est-il nécessaire de normaliser/normaliser les données dans l'apprentissage automatique?

Les caractéristiques contiennent stddev, moyenne et dérivée de l'accéléromètre et du gyroscope. Ces fonctionnalités ont des unités différentes et la normalisation/normalisation perdra la véritable signification des fonctionnalités. Par exemple, l'unité d'un vecteur de caractéristique est la vitesse de rotation (degré/sec), la valeur de cette caractéristique est comprise entre -120 et 120. Une autre est stddev d'accélération de l'axe des x, la valeur est principalement comprise entre 1 et 120. 0 et 2. Si je veux normaliser, tous les vecteurs caractéristiques seront centrés près de 0, avec des valeurs négatives/positives réparties autour de zéro. -> Même le stddev aura des valeurs négatives! Il perd totalement sa signification réelle?

Suis-je sur la mauvaise piste? Toute information est appréciée! Merci!

+1

Ceci n'est pas approprié pour SO. de toute façon vous avez une réponse [ici] (http://stats.stackexchange.com/questions/189652/is-it-a-good-practice-to-always-scale-normalize-data-for-machine-learning) –

Répondre

-2

Il est toujours fortement recommandé d'effectuer la mise à l'échelle et la normalisation en tant qu'étape de prétraitement, et même la descente en gradient (l'algorithme d'apprentissage le plus courant), même dans votre cas, mais en cas de doute effectuer une validation croisée. Par exemple, lors de l'utilisation d'images et de réseaux de neurones, parfois après la normalisation, les entités (pixels) ont des valeurs négatives, ce qui ne fait pas perdre de sens aux données d'apprentissage.