J'ai un ensemble d'échantillons d'observations comme suitComment effectuer un regroupement/groupement sur des variables catégorielles basées sur des fréquences?
var1 var2 var3 var4
1 2 1 1
3 2 1 3
1 2 0 1
3 2 2 3
Toutes les valeurs sont catégoriques dans la nature. Je veux regrouper les première et troisième rangées dans une grappe et les deuxième et quatrième dans une autre grappe. Je crois que l'encodage à chaud n'est pas efficace dans ce cas parce que les variables catégoriques ne possèdent aucun rang et sont purement nominales.
(Les lignes ne doivent pas nécessairement être absolument identiques). Existe-t-il un algorithme mathématique prédéfini pour regrouper ces rangées en fonction des similitudes/fréquences? Quelqu'un peut-il suggérer un bon moyen de le faire? Ou devrais-je aller avec un codage à chaud?
De plus, le regroupement sur une donnée catégorique peut être effectué en utilisant les distances de gower dans la partition autour de l'algorithme de medoids, si je ne me trompe pas. –