J'ai des données qui ont des champs discrets, ou pour le dire d'une autre manière, des valeurs énumérées. Par exemple, dans mes données, j'ai un champ comme "deviceType" qui peut prendre des valeurs comme "Handheld" et "Desktop". D'autres attributs de chaîne peuvent être des URL. Cependant, ils manquent intrinsèquement de notion de distance et ne peuvent donc pas être «vectorisés». En outre, certains d'entre eux sont extrêmement importants et significatifs. Comment puis-je les intégrer dans la procédure de clustering?Clustering et valeurs discrètes
Une solution que j'ai pensé est de les diviser en nouveaux champs booléens (dimensions). Y a-t-il un moyen de représenter cela dans Mahout?
Quelles autres options ai-je?