J'essaie de résoudre un problème de régression en utilisant xgboost en python. Mais j'ai rencontré un problème. Je l'ai cherché de nombreux endroits, mais je n'ai pas pu obtenir de résultats précis.Comment gérer des variables numériques numériques ayant un grand nombre de valeurs différentes dans python xgboost?
J'ai un modèle d'affaires agrégateur alimentaire. Les utilisateurs de ma plateforme peuvent commander dans de nombreux restaurants différents. Je souhaite utiliser le modèle de régression pour prédire l'ETA pour une commande (à afficher sur l'application) après que l'utilisateur l'ait placée. J'envisage d'utiliser "restaurant_id" dans mon modèle de formation. Mais maintenant le problème est que j'ai plus de 100 restaurants répertoriés sur ma plate-forme. Et je ne peux pas utiliser cette fonction numérique. Je dois l'employer la caractéristique catégorique. Comment gérer ce cas? c'est-à-dire comment gérer une fonctionnalité catégorielle avec autant de valeurs différentes? J'utilise Xgboost en python. J'ai utilisé la fonction get_dummies des pandas. Je ne suis pas sûr de le faire de cette façon ou de suivre une autre approche. Toutes les suggestions seront utiles.
Merci d'avance.
Voulez-vous prédire l'ETA en utilisant XGBoost? –
@AmeyYadav Je peux utiliser n'importe quel algo, xgboost n'est pas le seul. Mais l'idée est de savoir comment résoudre le problème, je suis coincé dans – user3457384