2009-09-20 9 views
7

J'ai besoin d'une liste de prénoms communs pour les gens, comme "Bill", "Gordon", "Jane", etc. Y at-il une liste libre de beaucoup de noms connus, au lieu de les taper? Quelque chose que je peux facilement analyser avec le programme pour remplir un tableau par exemple?Listes de prénoms communs, analysables par ordinateur?

Je ne suis pas inquiet:

  • savoir si un nom est masculin ou féminin (ou les deux)
  • Si l'ensemble de données a un tas de faux positifs
  • S'il y a des noms n'y figure pas, évidemment aucun ensemble de données comme celui-ci ne sera complet.
  • S'il y a des 'doublons', c'est-à-dire que je ne me soucie pas de savoir si les jeux de données "Bill" et "William" et "Billy" ont des noms différents. Je préfère avoir plus de données que moins
  • Je ne me soucie pas de savoir la popularité du nom

Je sais que Wikipedia a une list of most popular given names, mais est dans une page HTML et manged avec la syntaxe wiki horribles . Existe-t-il un meilleur moyen d'obtenir des exemples de données comme celui-ci sans avoir à passer au crible wikipedia?

Répondre

25

Cela devrait être suffisant pour vous aider à démarrer, je pense.

5

Vous pouvez facilement consommer l'API Wikipedia (http://en.wikipedia.org/w/api.php) pour récupérer la liste des pages dans une catégorie spécifique, ressemble à Catégorie: Prénoms est quelque chose que vous voulez commencer.

http://en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmnamespace=0&cmlimit=500&cmtitle=Category:Given_names 

La partie du résultat de cette URL ressemble à ceci:

<cm pageid="5797824" ns="0" title="Abdou" /> 
    <cm pageid="5797863" ns="0" title="Abdu" /> 
    <cm pageid="859035" ns="0" title="Abdul Aziz" /> 
    <cm pageid="6504818" ns="0" title="Abdul Qadir" /> 

Regardez l'API et sélectionnez les paramètres de format et de requête appropriés, et vérifier les catégories.

P.S. BTW, Le wiki-texte de la page que vous avez lié contenir des noms dans une forme facile à extraire en utilisant regexp ... Ainsi que les titres de liens dans la page HTML rendue ont "(nom)" attaché au nom lui-même .

+0

L'option * cmlimit * de la requête est au maximum (500) autorisée pour les utilisateurs non autorisés et peut être augmentée à 5000 éléments. En tout cas, en utilisant l'option * cmcontinue * pour récupérer tous les résultats par morceaux ... –

6

Social Security Administration - Beyond the Top 1000 Names Data Files

Ce qui précède est une liste complète des premiers noms aux États-Unis. Les fichiers zip contiennent des données nationales et d'état par année de naissance au format CSV. Il comprend le nombre d'occurrences (minimum 5) et le sexe.Par exemple, le fichier national pour 2010 comprend 33 838 noms de bébé.

Questions connexes