2

Supposons que j'ai une fonction de localisation. Dans l'ensemble de données du train, ses valeurs uniques sont «New York», «Chicago». Mais dans l'ensemble de test il a «New York», «Chicago», «Londres». Alors, en créant un encodage à chaud, comment ignorer 'London'? En d'autres termes, comment ne pas encoder les catégories qui n'apparaissent que dans l'ensemble de test?Comment gérer des valeurs catégorielles invisibles dans un ensemble de données de test à l'aide de python?

Répondre

0

supposer que ce soit vos listes

train_data = ['NewYork', 'Chicago'] 
test_set = ['NewYork', 'Chicago', 'London'] 

Sur la base de votre question:

Comment ne pas coder les catégories qui apparaissent uniquement dans le jeu de test?

for each in test_set: 
    if filter(lambda element: each in element, train_data): 
     print each 

Ce sorties NewYork & Chicago, ce qui signifie London est sautée.