2017-06-29 2 views
0

Je suis un nouveau venu dans l'apprentissage automatique avec une petite expérience et j'ai fait quelques projets. Maintenant, j'ai un projet lié à l'assurance. J'ai donc des bases de données sur les clients que je vais fusionner pour obtenir toutes les informations possibles sur les clients et j'ai une base de données pour les revendications. J'ai besoin de construire un modèle pour identifier le degré de risque du client en fonction de ses rangs.Comment construire une variable cible pour un projet d'apprentissage automatique supervisé

Ma question: J'ai besoin de construire ma variable cible qui classe les clients en fonction de leur degré de risque, en comptant sur les réclamations. Je pourrais avoir différentes stratégies pour le faire, mais je suis confus sur la façon dont je vais traiter ce qui suit: - Dois-je faire un type spécifique d'analyse avant de construire les rangs tels que le regroupement, ou je dois avoir une forte hypothèse théorique correspondant avec la vision du fournisseur de projet. - Si j'utilise certaines variables dans la base de données des revendications pour construire les rangs, comment puis-je les traiter plus tard. En d'autres termes, dois-je les retirer de l'ensemble de données final pour la formation, pour éviter la corrélation avec la variable cible, ou je peux les traiter d'une manière différente et les conserver. - Si je les garde, y a-t-il un traitement spécial selon qu'il s'agisse de variables catégorielles ou continues?

Répondre

0

Chaque point de départ du projet d'apprentissage automatique est EDA. D'abord, créez une fonctionnalité, comme la fréquence à laquelle ils obtiennent de mauvaises créances ou combien ils obtiennent. Ensuite, faites quelques EDA pour trouver quelles sont les fonctionnalités les plus utiles. Deuxièmement, le problème ressemble à la classification. Le regroupement est généralement plus difficile à évaluer.