J'ai une dfGénération d'une matrice de similarité de pandas géants dataframe
id val1 val2 val3
100 aa bb cc
200 bb cc 0
300 aa cc 0
400 bb aa cc
De cela, je dois générer une df, quelque chose comme ceci:
100 200 300 400
100 3 2 2 3
200 2 2 1 2
300 2 1 2 2
400 3 2 2 3
Explaination: id 100 contient aa,bb,cc
et contient
Il ya 2 similar valeurs.
Par conséquent, dans ma matrice finale, la cellule d'intersection index 100 et colonne 200, doit être inséré.
De même pour id 200- valeurs sont bb,cc,0
et que pour id 300 - aa,cc,0
Ici, la similitude est donc dans ma matrice finale la cellule correspondant à 200 (indice) -300 (colonne) doit être inséré avec 1.
Je pense que les zéros doivent être traités comme toute autre valeur. Notez que votre sortie est un peu différente – AndreyF
@AndreyF De ceci j'ai compris: 'De même pour l'identification 200 - les valeurs sont bb, cc, 0 et que pour l'identificateur 300 - aa, cc, 0; Ici la similitude est 1' que les 0 ne devraient pas être comptés –
@jezrael J'ai essayé cela ... cela me donne une réponse incorrecte pour les autres colonnes. –