2017-06-11 3 views
0

hi im nouveau en apprentissage machine.je veux former un classificateur KNN avec l'ensemble de données ayant cinquante enregistrements complets (sans valeurs manquantes) et 103 enregistrements incomplets (y compris les valeurs manquantes)combien d'enregistrements sont nécessaires pour la formation de classifieur en apprentissage supervisé

Je veux demander que cet ensemble de données est défendable aux fins de la classification. ou devrais-je chercher un nouveau jeu de données?

Je joins des captures d'écran de mon jeu de données. POS est la classe d'étiquettes de l'ensemble de données.

screenshot of dataset

Répondre

0

Si votre espace de caractéristiques est de taille n, c'est-à-dire aucune des colonnes d'entrée, k*n, où k> = 3, la taille d'échantillon complète doit être une bonne quantité de données pour commencer.

Vous pouvez également vérifier l'imputation de vos données (valeurs manquantes) avec des méthodes d'extrapolation moyennes ou autres.

Une heuristique grossière qui est parfois préconisé est que le nombre de points de données ne doit pas être inférieure à un multiple (par exemple 5 ou 10) du nombre de paramètres adaptatifs dans le modèle. - Bishop, Page no. 9

+0

donc vous voulez dire si mon k = 3 et attributs (colonnes) = 5 puis 3x5 = 15 enregistrements sera suffisant pour la classification? – user3412173

+0

oui! juste pour confirmer, k est juste une constante ici et n'a rien à voir avec les paramètres d'un algorithme (KNN_classifier dans votre cas). – Abhishek

0

Optez pour des jeux de données de sécurité comme la valeur par défaut « jeu de données de l'iris » fourni par scikit apprendre lui-même Vous pouvez également rechercher l'apprentissage automatique UCI Repository pour les bons jeux de données.

+0

Je suis passé par le dépôt UCI mais il n'y avait pas de jeu de données pertinent. Je travaille sur "la détection des rôles dans une organisation terroriste en utilisant l'apprentissage supervisé" .. pouvez-vous me suggérer un référentiel à partir duquel je reçois les données sur les informations personnelles des terroristes .. comme l'éducation, le sexe et le rôle dans l'organisation – user3412173

+0

Je n'ai aucune idée de l'endroit où cet ensemble de données pourrait exister. Vous pourriez vérifier dans les projets CS229 pour avoir une idée du projet que vous faites. Je suis sûr qu'ils pourraient avoir des projets liés à ce domaine. Il suffit de rechercher cs229 projets sur le terrorisme – vutsuak

+0

https://www.kaggle.com/argolof/predicting-terrorism/version/1 Cela peut aider – vutsuak