2010-09-28 8 views
5

Dans le cadre d'un système de gestion de contacts, j'ai une grande base de données de noms. Les gens éditent fréquemment ceci et par conséquent nous rencontrons des problèmes de la même personne existant sous différentes formes (John Smith et Jonathan Smith). J'ai regardé la similarité des mots, mais il est facile de penser à des variations de noms qui ne sont pas du tout similaires (Richard vs Dick). Je me demandais s'il y avait une liste de variations communes de prénom anglais que je pourrais utiliser pour détecter et corriger de telles erreurs.Variations de l'orthographe du prénom

+0

double possible de [Conversion pseudo utilisateur de premier nom formel en Python] (http://stackoverflow.com/ questions/13615789/conversion-user-pseudo-en-formel-premier-nom-en-python) – Luke

Répondre

3

Je ramperais toutes les pages de wikipedia (il y a une décharge disponible des données wikipedia) sur les noms des personnes, par exemple, http://en.wikipedia.org/wiki/Teresa (de http://en.wikipedia.org/wiki/Category:English_given_names), et créer un index que vous pouvez utiliser pour suggérer les formes correctes (vous les classez par le nombre de variantes de prénom dans votre base de données). Malheureusement je ne sais pas. une telle base de données.

Questions connexes