2009-10-31 3 views
6

Je suis à la recherche d'extraire les noms et lieux de très courtes rafales de l'exemple de texteDevrais-je utiliser LingPipe ou NLTK pour extraire des noms et des lieux?

 
"cardinals vs jays in toronto" 
" Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" 
"jenson button - pole position, brawn-mercedes - monaco". 

Ces données sont actuellement dans une base de données MySQL, et je (à peu près) ont un dossier distinct pour chaque athlète, bien que les noms sont parfois mal orthographiés, etc.

Je voudrais extraire les athlètes et les lieux. Je travaille habituellement en PHP, mais je n'ai pas réussi à trouver une bibliothèque pour l'extraction d'entités (et je voudrais peut-être approfondir quelques-unes de NLP et ML à l'avenir). De ce que j'ai trouvé, LingPipe et NLTK semblent être les plus recommandés, mais je ne peux pas comprendre si l'un ou l'autre conviendra vraiment à mon but, ou si quelque chose d'autre serait mieux.

Je n'ai pas programmé en Java ou en Python, donc avant de commencer à apprendre de nouvelles langues, j'espère obtenir des conseils sur la route à suivre ou d'autres recommandations.

+0

"... un tableau séparé pour chaque athlète ..." peut-être voulez-vous dire un record pour chaque athlète? (ce serait beaucoup de tables sinon ...) – mjv

+0

ouais! les langues/modules seraient le moindre de mes problèmes si j'avais une table séparée pour chaque athlète! Merci d'avoir fait remarquer cela. – pedalpete

Répondre

4

Ce que vous décrivez est named entity recognition. Donc, je vous recommande de vérifier les autres questions concernant ce sujet si vous ne les avez pas déjà vu. This ressemble à la réponse la plus utile pour moi.

Je ne peux pas vraiment dire si NLTK ou LingPipe est le mieux adapté à cette tâche, mais d'après les réponses, il y a quelques autres ressources écrites en Java.

Un avantage d'aller avec NLTK est que Python est très accessible en tant que langage. L'autre avantage est que le NLTK book (qui est disponible gratuitement) offre une introduction à la fois Python et NLTK en même temps, ce qui serait utile pour vous.

Questions connexes