Je lis que je peux créer des vecteurs mahout à partir d'un index lucene qui peut être utilisé pour appliquer les algorithmes de clustering mahout. http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Textmahout lucene document clustering comment?
Je voudrais appliquer K-means algorithme des documents dans mon index Lucene, mais on ne sait pas comment puis-je appliquer pour extraire des clusters significatifs avec ces documents cet algorithme (ou classification hiérarchique).
Dans cette page http://cwiki.apache.org/confluence/display/MAHOUT/k-Means indique que l'algorithme accepte deux répertoires d'entrée: un pour les points de données et un pour les groupes initiaux. Mes points de données sont les documents? Comment puis-je "déclarer" que ce sont mes documents (ou leurs vecteurs), simplement les prendre et faire le clustering?
désolé à l'avance pour ma pauvre grammaire
Merci
oui c'est je ne peux pas comprendre. Quelle est la sortie? comment puis-je voir dans la sortie que par exemple les documents 5 et 8 sont sur le même cluster? – maiky