2017-02-16 4 views
1

Je souhaite utiliser des techniques de clustering pour l'analyse de données binaires. J'ai recueilli les données par le biais d'une enquête dans laquelle j'ai demandé aux utilisateurs de sélectionner exactement 20 fonctionnalités sur la liste des 94 caractéristiques du produit. Les colonnes de mes données représentent les 94 caractéristiques du produit et les lignes représentent les participants. J'essaie de regrouper les utilisateurs similaires dans différents groupes d'utilisateurs en fonction des fonctionnalités du produit qu'ils ont sélectionnées. Chaque grappe d'utilisateurs devrait également me dire les caractéristiques du produit associées à chaque grappe. J'utilise des outils de clustering Open Source comme NCSS et JMP. J'essayais d'utiliser la technique de clustering floue pour atteindre mon objectif mais malheureusement ces outils ne traitent pas des données binaires. Pouvez-vous s'il vous plaît me suggérer quelle technique serait vraiment appropriée pour mes tâches, aussi quel outil en ligne je peux utiliser pour utiliser l'analyse de cluster sur mes données? En raison de la limitation du temps, je ne cherche pas à me coder et je ne cherche que quelques outils open source qui ont toutes les fonctionnalités disponibles en eux que je peux utiliser tel quel.Techniques de clustering pour les données binaires

Répondre

2

Le clustering pour les données binaires n'est pas vraiment défini.

Plutôt que de chercher un autre outil/fonction qui peuvent ou peuvent ne pas fonctionner par essais et erreurs, vous devez d'abord essayer de répondre à une question « simple »:

Qu'est-ce qu'un bon groupe,

mathématiquement?

termes vagues ne peuvent pas les questions suivantes pour répondre ensuite sont:.. I) quand est Clustering A mieux que le regroupement B (Ie comment le calcul informatique de qualité), et ii) comment peut-il être trouvé efficacement

Vous n'obtiendrez pas loin si vous ne comprenez pas ce que vous faites juste en appelant des fonctions aléatoires ...

En outre, est réellement ce que vous cherchez? La plupart du temps avec des données binaires, par ex. l'extraction fréquente d'itemset est le meilleur choix.