1

J'ai 4000 variables prédictives (continues) dans un ensemble de 150 patients. Premièrement, les variables avec sont associées à la survie doivent être identifiées. J'utilise donc la fonction des procédures de tests multiples (http://svitsrv25.epfl.ch/R-doc/library/multtest/html/MTP.html) avec la statistique t pour tester les coefficients de régression dans les modèles de survie à risques proportionnels de Cox pour identifier les prédicteurs significatifs. Cette analyse identifie 60 paramètres significativement associés à la survie. Je réalise ensuite un clustering k-means non supervisé avec le package ConensusClusterPlus (https://www.bioconductor.org/packages/release/bioc/html/ConsensusClusterPlus.html) qui identifie 3 clusters comme solution optimale basée sur le graphique de progression de la courbe CDF &. Si je fais ensuite une analyse de survie de Kaplan-Meier, je vois que chacun des trois groupes est associé à un schéma de survie distinct (survie faible/intermédiaire/longue). La question que j'ai maintenant est la suivante: Supposons que j'ai une autre série de 50 patients où je voudrais prédire à laquelle des trois groupes auxquels appartient le plus probablement un patient. Comment puis-je atteindre cet objectif? Ai-je besoin de former un classificateur (par exemple avec le paquet caret (topepo.github.io/caret/bytag.html) où les 150 patients avec les 60 paramètres significatifs sont dans l'ensemble d'apprentissage et l'algorithme sait quel patient a été affecté à lequel des trois groupes) et valider le classificateur dans les 50 nouveaux patients? Et ensuite effectuer une analyse de survie de Kaplan-Meier pour voir si les groupes prédits dans l'ensemble de validation (n = 50) sont de nouveau associés à un modèle de survie distinct?R: Clustering - comment prédire de nouveaux cas?

Merci pour votre aide.

Répondre

1

La réponse est beaucoup plus simple. Vous avez votre k-means, avec 3 clusters. Chaque groupe est identifié par son centroïde (un point dans votre espace à 60 dimensions). Afin de "classifier" un nouveau point, il vous suffit de mesurer la distance euclidienne à chacun de ces trois centroïdes et de sélectionner la grappe qui est la plus proche. C'est tout. Cela vient directement du fait que k-means vous donne le partitionnement de tout l'espace, pas seulement de votre ensemble d'entraînement.

+0

OK merci pour vos commentaires. Je viens de découvrir une autre publication où une question similaire a été posée: http://stackoverflow.com/questions/22300830/can-k-means-clustering-do-classification - votre solution correspond très probablement à l'option # 2 dans l'autre affectation. Cependant l'option # 3 (ce que j'ai mentionné dans l'affichage) est aussi loin que je comprends une solution viable? – user86533

+0

vous pouvez faire n'importe quoi, en quelques mots; Cependant, construire un classificateur pour imiter le clustering est inutile, car un clustering est un classificateur optimal selon ce critère. – lejlot

0

Mon conseil est de créer un modèle prédictif, tel que la forêt aléatoire, en utilisant le numéro de cluster comme résultat. Cela conduira à de meilleurs résultats que de prédire l'utilisation des distances dans le cluster. Les raisons sont multiples, mais considérons qu'un modèle prédictif est spécialisé dans une telle tâche, par exemple, il conservera et considérera des variables fiables (tandis que dans le cluster chaque variable aura le même compte).