Je suis à la recherche d'un logiciel de déduplication compatible avec MS SQL Server. J'ai une table plutôt vaste et malpropre qui contient des adresses de partout dans le monde dans toutes les langues différentes. La table est configurée pour gérer les dupes en tant qu'enregistrements parent/enfant, de sorte que certaines fonctionnalités pour gérer une correspondance sont nécessaires (c'est-à-dire ne pas simplement supprimer une dupe).Suggestions sur le logiciel de déduplication de données?
Edit: Voici la structure
ParentID | MasterID | PropertyName | Address1 | Address2 | PostalCode | City | StateProvinceCode | CountryCode | PhoneNumber
Le MasterID
est unique pour chaque enregistrement.
ParentID
contient le MasterID
pour l'enregistrement principal de chaque entrée, et l'enregistrement parent est MasterID = ParentID
.
CountryCode
est le code de pays ISO à deux lettres (pas le code de téléphone).
J'utiliserais SQL pour ça, c'est génial pour le du-duping. Si vous publiez votre structure de table et vos critères, nous pouvons probablement vous aider avec une requête. – JNK
Cherchez-vous plus que des adresses identiques identiques, c'est-à-dire que vous voulez considérer 123 N. Main Street comme une reproduction de 123 North Main St.? – hatchet
voir http://stackoverflow.com/questions/291728/open-source-address-scrubber – hatchet