Mes données se composent d'un mélange de fonctionnalités continues et catégorielles. Voici un petit extrait de ce que donne mes données comme dans le format csv (Considérez que les données recueillies par une chaîne super magasin qui exploite des magasins dans différentes villes)Comment discrétiser des attributs continus dans sklearn?
city,avg_income_in_city,population,square_feet_of_store_area, store_type ,avg_revenue
NY ,54504 , 3506908 ,3006 ,INDOOR , 8000091
CH ,44504 , 2505901 ,4098 ,INDOOR , 4000091
HS ,50134 , 3206911 ,1800 ,KIOSK , 7004567
NY ,54504 , 3506908 ,1000 ,KIOSK , 2000091
Elle vous pouvez voir que avg_income_in_city, square_feet_of_store_area et avg_revenue sont des valeurs continues où city, store_type etc sont des classes catégoriques (et quelques autres que je n'ai pas montrées ici pour maintenir la brièveté des données). Je souhaite modéliser les données afin de prédire le chiffre d'affaires. La question est comment «Discrétiser» les valeurs continues en utilisant sklearn? Est-ce que sklearn fournit une classe/méthode "readymade" pour la discrétisation des valeurs continues? (Comme nous l'avons à Orange par exemple Orange.Preprocessor_discretize (données, méthode = orange.EntropyDiscretization())
Merci!
Je ne vois pas pourquoi vous devriez bin/discrétiser les variables continues. C'est jeter l'information. –
Je suppose que cela dépend du type de données que vous utilisez et de la manière dont les mécanismes subséquents dans votre pipeline exploitent ces informations. Parfois, la quantification vectorielle ou généralement le regroupement en tant que pré-traitement peut rendre les représentations beaucoup plus stables. – eickenberg