2017-10-17 4 views
0

J'ai besoin de récupérer des données de ma base de données pour être extrait avec weka, mais certaines données manquent dans la table concernée, dois-je améliorer manuellement le fichier ARFF avec ces attributs manquants? dans mon travail, j'ai une table de personnes (identifiant, nom, âge, nationalité, spécialité, niveau, email, mot de passe) qui vont s'inscrire à un cours spécifique. donc en fonction de leur profil (niveau, spécialité) et de leur trace (voir la vidéo du cours ou non, avoir un compte ou avoir créé un nouveau compte) j'ai besoin de déterminer la probabilité s'il s'inscrit au cours ou non. donc ici les valeurs manquantes sont see-video (yes, no) et account (new, no). je suis nouveau avec data mining et weka, j'espère que l'idée est claire. merci!données manquantes récupérées pour weka datamining

Répondre

0

Tout d'abord, vous devez penser à ce que cela signifie que certaines données sont manquantes. Est-ce qu'il manque complètement au hasard, comme si quelqu'un avait pris un jeu de données complet et lancé des dés pour décider quelles données enlever? Ou le fait que les données sont manquantes peut-il vous donner des informations sur l'instance? Par exemple, si vous n'avez pas de données indiquant si quelqu'un a créé un compte, cela signifie peut-être qu'il a refusé de partager ces données, et les personnes de cette catégorie sont en effet moins susceptibles de s'inscrire à un cours?

Certaines techniques, par exemple le classificateur d'arborescence J48 couramment utilisé, peuvent gérer les données manquantes. J48 traite essentiellement une valeur manquante pour une instance comme l'agrégat de cette valeur pour tous les attributs où elle n'est pas manquante. Si les données manquent complètement au hasard, cela devrait donner des résultats valides.

D'autres techniques ne peuvent pas gérer les données manquantes et si vous souhaitez utiliser l'une d'elles, vous devrez supprimer les attributs ou les instances de vos données jusqu'à ce qu'aucune des données restantes ne soit manquante ou remplacer les valeurs manquantes par quelque chose. permet d'utiliser ces attributs et instances, ou une combinaison de ces méthodes. Une approche typique consiste à remplacer les valeurs manquantes par la moyenne des valeurs non manquantes d'un attribut numérique ou par la valeur non manquante la plus courante d'un attribut nominal, mais vous pouvez également remplacer les valeurs manquantes par une valeur différente que vous avez choisie. vous pourriez même traiter «manquant» comme une nouvelle valeur distincte d'un attribut nominal.

Weka a des filtres qui peuvent effectuer ces opérations pour vous avant d'effectuer la classification, vous n'avez donc pas besoin d'entrer et de modifier les données .arff vous-même.