2017-06-17 1 views
0

Je travaille sur un projet où j'utilise Spark MLlib linéaire SVM pour classer certaines données (régularisation) l2. J'ai comme 200 observations positives et 150 (générées) observation négative, chacune avec 744 caractéristiques, qui représentent le niveau d'activité d'une personne dans une région différente d'une maison.linéaire vs SVM SVM haute Nonlinear données dimensionnelles

J'ai quelques tests et la « areaUnderROC » métrique était 0,991 et il semble que le modèle est assez bon dans classer les données que je lui fournir. J'ai fait quelques recherches et j'ai trouvé que le SVM linéaire est bon dans les données de grande dimension, mais le problème est que je ne comprends pas comment quelque chose de linéaire peut bien diviser mes données.

Je pense en 2D, et peut-être cela est le problème, mais en regardant l'image du bas, je suis sûr à 90% que mes données ressemble plus à un problème non linéaire enter image description here

Il est donc normal que j'ai bien résultats sur les tests? Est-ce que je fais quelque chose de mal? Devrais-je changer d'approche?

Répondre

2

Je pense que vous remettez en question est sur le point « pourquoi linéaire SVM pourrait classfy mes Hight données Dimensions et même les données doivent être non-linéaire »
certaines données définies ressembler non linéaire en dimension faible comme vous par exemple l'image à droite , mais il est littéralement difficile de dire que l'ensemble de données est définitivement non linéaire en haute dimension car un non linéaire peut être linéaire dans l'espace (n + 1) D. Donc, je ne sais pas pourquoi vous êtes sûr à 90% de vos données est non linéaire même s'il s'agit d'une haute dimension.
A la fin, je pense qu'il est normal que vous avez un bon résultat de test dans des échantillons de test, car il indique que votre ensemble de données tout est linéaire ou presque linéaire en haute dimension ou il ne fonctionnera pas la validation croisée afin well.Maybe pourrait vous aider à confirmer que votre approche est appropriée ou non.