Probablement une question très bête donc soyez facile sur moi, mais ici je vais.Prédiction en utilisant sklearn's RandomForestRegressor
Alors, voici ce que mes données ressemble ...
date,locale,category,site,alexa_rank,sessions,user_logins
20170110,US,1,google,1,500,5000
20170110,EU,1,google,2,400,2000
20170111,US,2,facebook,2,400,2000
... et ainsi de suite. C'est juste un jeu de données de jouet que j'ai trouvé, mais qui ressemble aux données originales. J'essaye de construire un modèle pour prédire combien de connexions d'utilisateur et de sessions un site particulier aurait, en utilisant RandomForestRegressor
de sklearn. Je fais les choses habituelles en encodant les catégories sur les étiquettes et j'ai formé mon modèle sur les huit premiers mois de l'année et maintenant je voudrais prévoir les connexions et les sessions pour le neuvième mois. J'ai créé un modèle formé sur les connexions et un autre sur les sessions.
Mon jeu de données de test est de la même forme:
date,locale,category,site,alexa_rank,sessions,user_logins
20170910,US,1,google,1,500,5000
20170910,EU,1,google,2,400,2000
20170911,US,2,facebook,2,400,2000
Idéalement, je voudrais passer dans l'ensemble de données de test sans les colonnes je besoin prédits, mais RandomForestRegressor se plaint des dimensions étant différentes entre la ensemble d'entraînement et de test.
Quand je passe le jeu de données de test sous sa forme actuelle, le modèle prédit les valeurs exactes dans les sessions
et user_logins
colonnes dans la plupart des cas et des valeurs avec des variations minuscules autrement.
J'ai mis à zéro les colonnes sessions
et user_logins
dans les données de test et les ai transmises au modèle, mais le modèle a prédit presque tous les zéros.
- Mon flux de travail est-il correct? Est-ce que j'utilise RandomForestRegressor correctement?
- Comment puis-je me rapprocher des valeurs réelles lorsque mon jeu de données de test contient des valeurs réelles? Les valeurs réelles dans les données de test sont-elles utilisées dans la prédiction?
- Si le modèle fonctionne correctement, ne devrais-je pas obtenir les mêmes valeurs prédites si j'annule les colonnes que je cherche à prédire (
sessions
etuser_logins
)?
Pouvez-vous ajouter votre code? –