2017-07-07 4 views
0

Considérons une base de données avec la structure suivante:Recherche de modèles R en chiffres/mises en page

<Age> <Gender> <Field1> <Field2> <Field3> <Field4> <Field#> 

Lorsque, pour chaque ligne, certains champs pourraient être nul, d'autres non, ce qui représente le nombre de fois l'individu utilisé un tel champ - plusieurs champs peuvent être utilisés pour chaque ligne.

Par exemple, considérons la DB comme étant:

10 M 10 0 5 0 1 
5 M 7 1 6 0 2 
10 M 6 1 4 1 0 
.... 

Donc, on pourrait dire que le modèle pour les personnes de 10 ans et le sexe masculin, serait le premier et le troisième champs comme étant le plus représentatif.

Je ne sais pas si mon explication fait sens. Est-ce réalisable? Y a-t-il un algorithme/paquet R pour de tels problèmes?

+0

Ne serait-' Field1' et 'Field3' sont les plus utilisés? – herbaman

+0

Oui, je l'ai manqué, je l'ai remercié haha ​​ – JDoe

Répondre

0

Ce qui vient à l'esprit est de sous-ensemble. Si je comprends bien votre question. Cherchez subsetting, je ne suis pas positif mon code est correct ...

df [qui (df $ Âge = 10 & df $ Sexe = M),]

+0

J'apprécie l'aide @Valerie S, mais ce n'est pas le point. Imaginez que vous subdivisiez les données en fonction de l'étiquette d'âge 10 et du sexe masculin, vous obtiendriez - dans l'exemple fourni - deux lignes. Maintenant, pour ces deux lignes, ce que j'essaie de réaliser, c'est de détecter le motif sur les champs existants "Field *", par fréquence je suppose. – JDoe