J'ai quelques ensembles de données numériques dont j'ai besoin pour créer une hiérarchie de concepts. Pour l'instant, je l'ai fait manuellement en observant les données (et un graphique linéaire correspondant). Basé sur mon intuition, j'ai créé des hiérarchies acceptables.Algorithme pour générer une hiérarchie de concepts numériques
Cela semble être une tâche qui peut être automatisée. Est-ce que quelqu'un sait s'il existe un algorithme pour générer une hiérarchie conceptuelle pour les données numériques?
Pour donner un exemple, je l'ensemble de données suivantes:
Bangladesh 521
Brazil 8295
Burma 446
China 3259
Congo 2952
Egypt 2162
Ethiopia 333
France 46037
Germany 44729
India 1017
Indonesia 2239
Iran 4600
Italy 38996
Japan 38457
Mexico 10200
Nigeria 1401
Pakistan 1022
Philippines 1845
Russia 11807
South Africa 5685
Thailand 4116
Turkey 10479
UK 43734
US 47440
Vietnam 1042
alt text http://i40.tinypic.com/fd7xxu.jpg
pour lequel j'ai créé la hiérarchie suivante:
- PLUS BAS (< 1000)
- LOW (1000-2500)
- MOYEN (2501-7500)
- HIGH (7501-30000)
- PLUS HAUT (> 30000)
Merci, cela semble être ce dont j'ai besoin. Je lis dedans maintenant. –
Le problème avec le clustering de cet ensemble de données (enfin, tout ensemble de données qui n'est pas réellement pointé dans un espace) va être de choisir une métrique de distance appropriée pour l'algorithme avec lequel vous allez. Je suppose qu'une simple distance euclidienne va poser des problèmes étant donné que vous recherchez de petites distances (1000-2500) dans certaines zones où elles sont plus rapprochées et beaucoup plus grandes (7501-30000) là où elles ne le sont pas. Peut-être quelque chose comme euclidien sur l'espace de journal? Il devrait être facile de l'essayer au moins. – Dusty