J'ai une assez grande base de données d'adresses de localisation (500k +) du monde entier. Bien que beaucoup de l'adresse sont des doublons ou des quasi-doublons. Chaque fois qu'une nouvelle adresse est entrée, je vérifie si elle est déjà dans la base de données, et si c'est le cas, je prends le lat/long existant et l'applique à la nouvelle entrée. La raison pour laquelle je ne lierai pas à une table séparée est parce que les adresses ne sont pas utilisées en tant que groupe pour la recherche, et leurs différences sont souvent assez dans l'adresse que je veux les garder distinctes. Si j'ai une correspondance complète sur l'adresse, j'applique ce lat/long. Si ce n'est pas le cas, je vais au niveau de la ville et j'applique cela, si je ne peux pas trouver de correspondance, j'ai un processus séparé à exécuter.Nettoyage du géocodage manqué (ou conseils généraux sur le nettoyage des données)
Maintenant que vous avez l'arrière-plan étendu, le problème. Parfois, je me retrouve avec un lat/long qui est loin de la plage d'erreur normale acceptable. Cependant, étrangement, c'est normalement juste un ou deux de ces lat/longs qui sortent de la plage, tandis que le reste des données existe dans la base de données avec le nom de la ville correcte.
Comment recommanderiez-vous de nettoyer les données. J'ai la base de données geonames, donc théoriquement j'ai les données correctes. Ce que je lutte avec, c'est quelle est la routine que vous feriez pour y arriver.
Si quelqu'un pouvait me diriger dans le sens d'une certaine direction de scrubbing (bas niveau), ce serait génial.
Je ne comprends pas très bien le problème ... Pensez-vous que vous pourriez le clarifier un peu? –