Link to the MIT problem setQuel est le but de l'ensemble de retenue dans le clustering k-means?
Voici mes pensées actuelles - s'il vous plaît indiquer où je me trompe :)
Ce que je crois: but de l'ensemble de holdout est de fleuret, contraste, pour l'ensemble de la formation - pour prouver que le k-means élimine l'erreur à chaque tour.
Pour ce faire, l'ensemble de holdout montre l'erreur à tout BEGIN ning , à savoir qu'il ne recalcule pas le barycentre de chaque amas être au centre de chaque groupe, après chaque point a été attribué. Il s'arrête simplement et l'erreur est calculée.
L'ensemble de la formation, pour la première 80% de la points-- partitionné en utilisant randomPartition() -. Il suffit d'aller à travers l'ensemble k-moyens fonctionnels, et retourner le message d'erreur après que )
Où je me trompe probablement: Le problème probablement juste demande une autre série de k-means, mais avec un ensemble plus petit. En outre, la façon de calculer l'erreur pour l'ensemble d'entraînement par rapport à l'ensemble de retenue me semble identique. Ils ne sont probablement pas. En outre, j'ai entendu quelque chose à ce sujet impliquant la sélection des fonctionnalités.
Les méthodes actuelles J'envisage sur la croyance actuelle reposeront: en double la fonction k-means, et modifier le en double afin qu'il retourne les clusters, maxDistance après initial. terme Utilisez cette fonction pour le jeu de rétention.
Ce n'est pas courant d'utiliser un ensemble de holdout pour le regroupement. Le regroupement n'est pas une classification. –