2010-11-14 5 views
0

J'ai une base de données que j'accède par Django & Python. Nous voulons stocker les bâtiments en fonction de leurs adresses (pas de noms, puisque certains bâtiments n'ont tout simplement pas de noms).Stockez l'adresse et empêchez les doublons

Nous devons empêcher les utilisateurs d'entrer des entrées en double dans notre base de données pour le même bâtiment. Ceci est rendu difficile par la façon dont les gens peuvent taper les adresses (par exemple "1000 Main Street" contre "1000 Main St.")

De quelle manière pouvons-nous empêcher de façon fiable les doublons? J'utilise une base de données MySQL.

Merci

Répondre

0

Adresse de déduplication est une tâche complexe. Alors que le service Web USPS est bon, il manque sérieusement certaines fonctionnalités importantes. De plus, il est assez inefficace d'effectuer la déduplication par lots en utilisant un service web régulier, en effectuant des requêtes, etc.

Et, il semble que l'USPS a mis à jour son site, donc le lien que Dan a posté, bien qu'utile, est maintenant cassé. En guise de réponse mise à jour, je voudrais souligner que je travaille pour SmartyStreets et que nous supprimons les doublons des listes d'adresses. Vous pouvez, par exemple, télécharger votre liste au CASS-Certified Scrubbing et les adresses seront normalisées et marquées pour les doublons. C'est vraiment facile de cette façon. Si vous avez besoin d'une validation au point d'entrée, jetez un œil à LiveAddress, qui fournit des informations plus importantes que le seul service USPS.