2017-10-16 5 views
0

J'ai effectué une mise en grappe en mode k sur des variables catégorielles pour des données historiques. J'ai fait du regroupement parce que je voulais voir à quelles grappes appartiennent les données. Maintenant que j'ai la sortie, si et quand une nouvelle donnée arrive, y a-t-il un moyen de prédire le cluster dans lequel elle va tomber? Une façon de procéder pourrait être, puisque j'ai les données pour chaque rangée et le cluster dans lequel elle tombe, je peux l'utiliser comme données de train et faire un apprentissage supervisé. Mais je veux savoir s'il existe une méthode possible où je serai capable d'utiliser la variable de sortie existante pour prédire (sorte d'apprentissage semi-supervisé)Utiliser la sortie k-mode pour prédire

Je ne peux pas être en mesure de partager des données ou des résultats depuis que je travaille pour un client, mais toute direction sur la façon d'aborder sera très utile. Je fais des recherches à ce sujet depuis un certain temps mais je n'ai pas trouvé de solution appropriée.

+0

Si vous ne parvenez pas à fournir un [exemple reproductible] (https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example), nous ne pouvons pas vous aider . Il ne doit pas être vos données réelles, mais vous devriez être capable de créer un exemple avec des données simulées ou l'un des ensembles de données intégrés dans R. – MrFlick

+2

Entraînez un classificateur de votre choix sur les données en cluster. Utilisez ensuite le classificateur pour prévoir les nouvelles données. – G5W

+0

Alternativement, cluster "formation" et "test" des données ensemble. C'est plus coûteux en termes de calcul, car vous devrez réexécuter votre algorithme chaque fois que de nouvelles données seront disponibles. –

Répondre

0

La plupart des algorithmes de clustering ne peuvent pas prédire de nouvelles données.

KMeans et GMM sont des exceptions, et k-modes devraient fonctionner comme k-means (trouver le mode le plus similaire). Mais généralement, lorsque vous utilisez la mise en cluster, vous devez vraiment analyser les clusters et revérifier cela, car les clusters ne sont pas corrects à 100%. Habituellement, vous voulez que certaines grappes soient exécutées A, d'autres à partir de l'exécution B, etc. Entraînez ensuite un classificateur sur les grappes nettoyées révisées pour la prédiction.