2011-08-06 4 views
0

Veuillez suggérer un moyen de clustering incrémental efficace. J'essaie de mettre des chaînes similaires à un groupe. comparer les uns avec les autres n'est pas efficace. ce que j'ai pensé est de vérifier chaque chaîne d'entrée avec le représentant du groupe (cela signifie qu'il y a un modèle représentatif pour les chaînes dans ce groupe de sorte que la nouvelle chaîne peut être comparée à cela seulement). Donc, n'importe quoi pour commencer, de sorte que les chaînes presque similaires dans un groupe peuvent être représentées par un modèle universel (peut-être) avec la plus grande précision possible. De cette manière, les nouvelles données sont simplement comparées à celles représentatives du groupe et conservées si elles sont similaires. Le nombre de cluster et d'entrée n'est pas fixe ... les chaînes sont en streaming et peuvent avoir n'importe quelle longueur de motif.Incrémental clusterig

J'espère que j'étais clair. Aidez-moi avec un terme pour y aller.

Répondre

0

Il semble que la partie du problème qui vous pose problème consiste à trouver un modèle représentatif à utiliser pour chaque grappe.

La manière habituelle de faire le regroupement des chaînes est de les traiter comme des vecteurs et utiliser similitude cosinus comme la mesure de distance: http://en.wikipedia.org/wiki/Cosine_distance

Lorsque les chaînes du cluster sont représentés comme des vecteurs, alors je pense que le centre de la cluster est juste la somme des vecteurs normalisés. Utilisez cette somme comme représentant pour comparer chaque nouvelle chaîne.

Questions connexes