Comment puis-je trouver la meilleure ressemblance entre une ligne particulière et le reste des lignes d'une trame de données?Comment trouver la meilleure ressemblance entre une ligne et le reste de l'ensemble de données dans R?
J'essaie d'expliquer ce que je veux dire. Jetez un oeil à ce dataframe:
df <- structure(list(person = 1:5, var1 = c(1L, 5L, 2L, 2L, 5L), var2 = c(4L,
4L, 3L, 2L, 2L), var3 = c(5L, 4L, 4L, 3L, 1L)), .Names = c("person",
"var1", "var2", "var3"), class = "data.frame", row.names = c(NA,
-5L))
Comment puis-je trouver la meilleure ressemblance entre 1 personne (ligne 1) et le reste des lignes (personnes) dans le cadre de données. La sortie devrait être quelque chose comme: personne 1 toujours dans la rangée 1 et le reste des rangées dans l'ordre de la meilleure ressemblance. L'algorithme de simmilarité que je veux utiliser est cosinus ou pearson. J'ai essayé de résoudre mon problème avec les fonctions du arules package
, mais cela ne correspondait pas bien à mes besoins.
Des idées pour quelqu'un?
Merci! belle approche – rdatasculptor