Dire que j'ai les données suivantesComment faire le codage d'un chaud dans plusieurs colonnes d'une trame de données Pandas pour une utilisation ultérieure avec scikit-learn
import pandas as pd
data = {
'Reference': [1, 2, 3, 4, 5],
'Brand': ['Volkswagen', 'Volvo', 'Volvo', 'Audi', 'Volkswagen'],
'Town': ['Berlin', 'Berlin', 'Stockholm', 'Munich', 'Berlin'],
'Mileage': [35000, 45000, 121000, 35000, 181000],
'Year': [2015, 2014, 2012, 2016, 2013]
}
df = pd.DataFrame(data)
sur lequel je voudrais faire l'encodage d'un chaud sur la deux colonnes "Marque" et "Ville" afin de former un classificateur (disons avec Scikit-Learn) et de prédire l'année. Une fois que le classificateur est formé, je veux prédire l'année sur les nouvelles données entrantes (ne pas utiliser dans la formation), où je devrai réappliquer le même codage à chaud. Par exemple:
new_data = {
'Reference': [6, 7],
'Brand': ['Volvo', 'Audi'],
'Town': ['Stockholm', 'Munich']
}
Dans ce contexte, quelle est la meilleure façon de le faire sur les Pandas dataframe codant pour un chaud des 2 colonnes sachant qu'il est nécessaire de coder plusieurs colonnes, et qu'il est nécessaire être capable d'appliquer le même encodage sur de nouvelles données plus tard.
C'est une question de suivi de How to re-use LabelBinarizer for input prediction in SkLearn
si le jeu de test a une nouvelle valeur invisible pour les colonnes codées un chaud? Cela sera-t-il conservé ou supprimé dans cette approche? Excusez-moi, mais je demande parce que je ne pouvais pas comprendre la dernière ligne. –