2017-07-02 2 views
1

Link to the MIT problem setQuel est le but de l'ensemble de retenue dans le clustering k-means?

Voici mes pensées actuelles - s'il vous plaît indiquer où je me trompe :)

Ce que je crois: but de l'ensemble de holdout est de fleuret, contraste, pour l'ensemble de la formation - pour prouver que le k-means élimine l'erreur à chaque tour.

Pour ce faire, l'ensemble de holdout montre l'erreur à tout BEGIN ning , à savoir qu'il ne recalcule pas le barycentre de chaque amas être au centre de chaque groupe, après chaque point a été attribué. Il s'arrête simplement et l'erreur est calculée.

L'ensemble de la formation, pour la première 80% de la points-- partitionné en utilisant randomPartition() -. Il suffit d'aller à travers l'ensemble k-moyens fonctionnels, et retourner le message d'erreur après que )

Où je me trompe probablement: Le problème probablement juste demande une autre série de k-means, mais avec un ensemble plus petit. En outre, la façon de calculer l'erreur pour l'ensemble d'entraînement par rapport à l'ensemble de retenue me semble identique. Ils ne sont probablement pas. En outre, j'ai entendu quelque chose à ce sujet impliquant la sélection des fonctionnalités.

Les méthodes actuelles J'envisage sur la croyance actuelle reposeront: en double la fonction k-means, et modifier le en double afin qu'il retourne les clusters, maxDistance après initial. terme Utilisez cette fonction pour le jeu de rétention.

+0

Ce n'est pas courant d'utiliser un ensemble de holdout pour le regroupement. Le regroupement n'est pas une classification. –

Répondre

2

Le but de la mise en cluster est de regrouper des points de données similaires. Mais comment sauriez-vous si les points de données similaires que vous avez regroupés sont regroupés correctement? Comment pouvez-vous juger de vos résultats? Pour cette raison, vous divisez vos données disponibles en 2 ensembles: formation et holdout.

Prenez ceci comme une analogie. Pensez à l'ensemble de formation comme des questions de pratique pour certains examens. Vous travaillez les questions de pratique, essayez de faire mieux et améliorez vos compétences.

Vous pouvez considérer que le jeu de correction est l'examen réel. Si vous avez bien travaillé sur les questions d'entraînement (ensemble d'entraînement), alors vous aurez probablement de bons résultats dans l'examen (jeu de retenue). Maintenant vous savez comment vous vous êtes exercé et examiné (bien sûr après avoir essayé) sur la base duquel vous pouvez déduire votre performance globale et juger de ce qui est bon (quel est le nombre de grappes qui sont bonnes ou à quel point les données sont bonnes) groupé). Vous appliquerez donc votre algorithme de clustering sur les données d'apprentissage, mais pas sur les données de blocage, et découvrirez les centres de cluster (représentants des clusters). Pour les données de rétention, vous utiliserez simplement les centres de cluster que vous avez trouvés à partir de l'algorithme et assignerez des points de données au cluster dont le centre est le plus proche. Calculez votre performance sur les données d'entraînement et de hold-up en fonction de certaines mesures de performance (erreur de distance au carré dans votre cas). Enfin, comparez ces mesures sur différentes valeurs de k pour obtenir un bon jugement. Il y a plus à cela, mais pour l'amour de l'affectation, cela semble suffisant.

En pratique, il existe de nombreuses autres méthodes. Mais l'idée clé dans la plupart d'entre eux est la même. Il y a une communauté de statistiques où vous pouvez trouver des questions similaires: https://stats.stackexchange.com/

Références:

https://en.wikipedia.org/wiki/Cross-validation_(statistics)#Holdout_method