Je travaille sur un projet où j'utilise Spark MLlib linéaire SVM pour classer certaines données (régularisation) l2. J'ai comme 200 observations positives et 150 (générées) observation négative, chacune avec 744 caractéristiques, qui représentent le niveau d'activité d'une personne dans une région différente d'une maison.linéaire vs SVM SVM haute Nonlinear données dimensionnelles
J'ai quelques tests et la « areaUnderROC » métrique était 0,991 et il semble que le modèle est assez bon dans classer les données que je lui fournir. J'ai fait quelques recherches et j'ai trouvé que le SVM linéaire est bon dans les données de grande dimension, mais le problème est que je ne comprends pas comment quelque chose de linéaire peut bien diviser mes données.
Je pense en 2D, et peut-être cela est le problème, mais en regardant l'image du bas, je suis sûr à 90% que mes données ressemble plus à un problème non linéaire
Il est donc normal que j'ai bien résultats sur les tests? Est-ce que je fais quelque chose de mal? Devrais-je changer d'approche?