2016-09-29 2 views
0

Je tente de produire un modèle de classification basé sur le travail de données d'enquêtes qualitatives. Environ 10K de nos clients ont été recherchés et par conséquent un modèle de segmentation a été construit et par la suite chaque client a été classé dans l'un des 8 segments de clientèle. Le défi consiste maintenant à classer la base de clientèle TOTAL dans ces segments. Comme seuls certains clients ont répondu, le chercheur a utilisé des données démographiques globales pour appliquer des pondérations post-stratification (ou poids de fréquence).Construire un modèle de classification GBM avec pondération post-stratification client

Ma tâche est maintenant d'utiliser nos données clients en tant que variables explicatives sur ce 10K afin de construire un modèle de classification pour l'ensemble de la base. Afin de gérer les poids des clients, j'ai simplement dupliqué chaque enregistrement client par poids de fréquence respectif et l'ensemble de données a explosé à environ 72K. J'ai ensuite divisé ces données en train et testé et utilisé le paquet R caret pour former un GBM et en utilisant le modèle final choisi classé mon test de rétention. J'obtenais 82% de précision et je pensais que les résultats étaient trop beaux pour être vrais. Après y avoir réfléchi, je pense que le problème est que le modèle voit par inadvertance des enregistrements qui sont exactement les mêmes dans le test (certains enregistrements peuvent être dupliqués exactement jusqu'à 10 fois). Je sais que la fonction de modèle GLM vous permet d'utiliser le paramètre weight pour faire référence à un vecteur de poids mais ma question est de savoir comment utiliser d'autres algorithmes d'apprentissage machine, tels que GBM ou Random Forests, dans R?

Merci

Répondre

0

Vous pouvez utiliser des poids de cas avec gbm et train. En général, la liste des modèles caret pouvant utiliser des poids de casse est here.

+0

Merci, je ne peux pas croire que je l'ai manqué! Je suis un grand fan de CARET et du livre Applied Predictive Modeling (il est en première position sur ma bibliothèque). En fait au travail je dirais que je mentionne le paquet et livre au moins 3 fois par jour à mes collègues! – pman1971