Supposons que je les colonnes suivantes pour un csv que je lis à travers un noeud « File lecteur »:Transformer des valeurs moins fréquentes
id, name, city, income
Après l'avoir lu, je remarque que la colonne « ville » contient un grand nombre de valeurs uniques. Je veux:
- Sachez quelles valeurs sont les « k » le plus fréquent pour « city »
- Modifier ceux qui ne sont pas les « k » le plus fréquent de tenir quelque chose comme « autre »
Exemple:
id, name, city, income
1, Person 1, New York, 100.000
2, Person 2, Toronto, 90.000
3, Person 3, New York, 50.000
4, Person 4, Seattle, 60.000
le choix k à 1, je veux produire le tableau suivant:
id, name, city, income
1, Person 1, New York, 100.000
2, Person 2, Other, 90.000
3, Person 3, New York, 50.000
4, Person 4, Other, 60.000
Cela se produit parce que «New York» est la valeur la plus fréquente de «ville» dans la table d'origine. Savez-vous comment je peux faire cela en utilisant Knime?
Merci beaucoup!