2017-02-04 3 views
0

J'essaye d'exécuter l'algorithme de classification sur mon ensemble de données. Mon dataset est un ensemble de paquets (source Ip, destination, port, étiquette de classe). Je veux convertir ces données de données nominales en données numériques. Quelles sont les techniques appropriées pour convertir ces données?Convertir des données nominales en données numériques?

Répondre

0

L'approche habituelle consiste à effectuer un codage à chaud. Bien que cela code évidemment les données numériquement, cela pose plusieurs problèmes.

  1. Dimensionnalité accrue. Cela entraîne souvent des problèmes d'évolutivité et de discrimination (les distances entre les points deviennent trop similaires)
  2. Problèmes de normalisation et de pondération. stratégies de normalisation typiques telles que min-max mise à l'échelle et la normalisation ne fonctionnent pas comme on le souhaite »
  3. Corrélées attribue
  4. traitement des nouvelles valeurs d'attribut
  5. Les variables seront discrètes. De nombreux algorithmes tels que k-means nécessitent en continu pour fonctionner correctement.
  6. Problèmes d'interprétation. Par exemple. Souvent, un centre de cluster ne peut pas remonter de manière significative à l'espace d'origine.