J'ai 4000 variables prédictives (continues) dans un ensemble de 150 patients. Premièrement, les variables avec sont associées à la survie doivent être identifiées. J'utilise donc la fonction des procédures de tests multiples (http://svitsrv25.epfl.ch/R-doc/library/multtest/html/MTP.html) avec la statistique t pour tester les coefficients de régression dans les modèles de survie à risques proportionnels de Cox pour identifier les prédicteurs significatifs. Cette analyse identifie 60 paramètres significativement associés à la survie. Je réalise ensuite un clustering k-means non supervisé avec le package ConensusClusterPlus (https://www.bioconductor.org/packages/release/bioc/html/ConsensusClusterPlus.html) qui identifie 3 clusters comme solution optimale basée sur le graphique de progression de la courbe CDF &. Si je fais ensuite une analyse de survie de Kaplan-Meier, je vois que chacun des trois groupes est associé à un schéma de survie distinct (survie faible/intermédiaire/longue). La question que j'ai maintenant est la suivante: Supposons que j'ai une autre série de 50 patients où je voudrais prédire à laquelle des trois groupes auxquels appartient le plus probablement un patient. Comment puis-je atteindre cet objectif? Ai-je besoin de former un classificateur (par exemple avec le paquet caret (topepo.github.io/caret/bytag.html) où les 150 patients avec les 60 paramètres significatifs sont dans l'ensemble d'apprentissage et l'algorithme sait quel patient a été affecté à lequel des trois groupes) et valider le classificateur dans les 50 nouveaux patients? Et ensuite effectuer une analyse de survie de Kaplan-Meier pour voir si les groupes prédits dans l'ensemble de validation (n = 50) sont de nouveau associés à un modèle de survie distinct?R: Clustering - comment prédire de nouveaux cas?
Merci pour votre aide.
OK merci pour vos commentaires. Je viens de découvrir une autre publication où une question similaire a été posée: http://stackoverflow.com/questions/22300830/can-k-means-clustering-do-classification - votre solution correspond très probablement à l'option # 2 dans l'autre affectation. Cependant l'option # 3 (ce que j'ai mentionné dans l'affichage) est aussi loin que je comprends une solution viable? – user86533
vous pouvez faire n'importe quoi, en quelques mots; Cependant, construire un classificateur pour imiter le clustering est inutile, car un clustering est un classificateur optimal selon ce critère. – lejlot