2015-03-11 1 views
0

Je voulais regrouper mon ensemble de données à l'aide de l'atelier carotte2. J'ai un fichier xml d'entrée avec 65536 documents. J'utilise l'algorithme de classification Lingo.L'atelier Carrot2 ne pouvait pas traiter de grandes données

Mais lorsque je lance le processus, le plan de travail renvoie le résultat en quelques secondes avec tous les documents du groupe "Autres sujets".

J'ai vérifié le clustering avec des ensembles de données plus petits et j'obtiens les résultats.

Répondre

0

Carrot2 L'algorithme Lingo a été conçu pour de petits ensembles de données, jusqu'à un millier de documents. Pour les ensembles de données plus volumineux, vous pouvez essayer STC, qui évolue mieux. En dépit de l'algorithme, Carrot2 traite toutes les données en mémoire, de sorte qu'il ne sera pas mis à l'échelle de millions de documents. Dans ce dernier cas, vous pouvez regarder Apache Mahout, par exemple.