2009-12-04 4 views
12

Je lis que je peux créer des vecteurs mahout à partir d'un index lucene qui peut être utilisé pour appliquer les algorithmes de clustering mahout. http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Textmahout lucene document clustering comment?

Je voudrais appliquer K-means algorithme des documents dans mon index Lucene, mais on ne sait pas comment puis-je appliquer pour extraire des clusters significatifs avec ces documents cet algorithme (ou classification hiérarchique).

Dans cette page http://cwiki.apache.org/confluence/display/MAHOUT/k-Means indique que l'algorithme accepte deux répertoires d'entrée: un pour les points de données et un pour les groupes initiaux. Mes points de données sont les documents? Comment puis-je "déclarer" que ce sont mes documents (ou leurs vecteurs), simplement les prendre et faire le clustering?

désolé à l'avance pour ma pauvre grammaire

Merci

Répondre

3

Si vous avez des vecteurs, vous pouvez exécuter KMeansDriver. Voici l'aide pour la même chose.

Usage: 
[--input <input> --clusters <clusters> --output <output> --distance <distance> 
--convergence <convergence> --max <max> --numReduce <numReduce> --k <k> 
--vectorClass <vectorClass> --overwrite --help] 
Options 
    --input (-i) input    The Path for input Vectors. Must be a 
            SequenceFile of Writable, Vector 
    --clusters (-c) clusters   The input centroids, as Vectors. Must be a 
            SequenceFile of Writable, Cluster/Canopy. 
            If k is also specified, then a random set 
            of vectors will be selected and written out 
            to this path first 
    --output (-o) output    The Path to put the output in 
    --distance (-m) distance   The Distance Measure to use. Default is 
            SquaredEuclidean 
    --convergence (-d) convergence The threshold below which the clusters are 
            considered to be converged. Default is 0.5 
    --max (-x) max     The maximum number of iterations to 
            perform. Default is 20 
    --numReduce (-r) numReduce  The number of reduce tasks 
    --k (-k) k      The k in k-Means. If specified, then a 
            random selection of k Vectors will be 
            chosen as the Centroid and written to the 
            clusters output path. 
    --vectorClass (-v) vectorClass The Vector implementation class name. 
            Default is SparseVector.class 
    --overwrite (-w)     If set, overwrite the output directory 
    --help (-h)      Print out help 

Mise à jour: Obtenez le répertoire de résultat de HDFS à fs local. Ensuite, utilisez l'utilitaire ClusterDumper pour obtenir le cluster et la liste des documents de ce cluster.

+0

oui c'est je ne peux pas comprendre. Quelle est la sortie? comment puis-je voir dans la sortie que par exemple les documents 5 et 8 sont sur le même cluster? – maiky