Je suis un débutant à Apache Hadoop et jusqu'à présent, j'ai effectué le problème de nombre de mots en utilisant mapReduce à des fins d'apprentissage. Mon objectif est d'effectuer un clustering K-means sur un ensemble de données dites 1.5gig +.Comment utiliser K-means avec Apache Hadoop?
Quelle est la manière la plus simple d'effectuer un clustering K-means à l'aide de Hadoop? Dois-je modifier ma carte et réduire les fonctions en fonction des exigences de K-means ou dois-je exiger Mahout (je ne l'ai pas utilisé auparavant), ou l'objectif peut-il être atteint sans cela?
Le système d'exploitation hôte est Win7 et j'ai installé HortonWorks Sandbox 2.3 sur VirtualBox. Toute aide serait très appréciée car je suis un peu confus quant à la voie à choisir pour atteindre mon objectif. Merci d'avance.