J'ai environ 50K ensembles de données dont la valeur peut être comprise entre 0 et 10. Je souhaite appliquer le HAC pour regrouper ces données. Mais pour appliquer HAC, je dois préparer une matrice de similarité N * N.Comment faire un clustering hiérarchique pour une matrice de grande similarité
Pour N = 50 K, cette matrice serait simplement trop grande pour être conservée en mémoire, même si j'utilise short.
Y at-il un moyen de faire HAC par lots ou toute autre méthode qui pourrait m'aider à appliquer HAC avec 50K points de données. Je prévois de l'implémenter en Java.
Je suis également préoccupé par le temps total que cela prendrait, toute indication à ce sujet serait très utile.
Merci pour vos entrées. En ce moment je cherche une solution qui peut fonctionner sur une seule machine. J'ai lu à propos de l'approche descendante, mais selon le wiki, sa complexité temporelle pourrait être 2^N, ce qui est pire que N^2 ou N^3. Et comme je le sais, Mahout ne supporte pas HAC. – Bankelaal
Ensuite, utilisez scikit-learn. Les datacoints 50K + HAC me convient parfaitement, je l'habitude de regrouper un ensemble de documents de 100K avec cela et cela a fonctionné très bien pour moi - cela a pris quelque chose comme 5-10 minutes sur ordinal Core 2 Duo PC. –
Vous voulez dire que 100k * 100k similitude peut être fait en 10 minutes? Vous avez utilisé le haut ou le bas? Quel lien de cluster avez-vous choisi et combien de RAM avez-vous utilisé? – Bankelaal