2010-04-21 6 views
4
Named Entity Extraction (extract ppl, cities, organizations) 
Content Tagging (extract topic tags by scanning doc) 
Structured Data Extraction 
Topic Categorization (taxonomy classification by scanning doc....bayesian) 
Text extraction (HTML page cleaning) 

Y at-il des bibliothèques que je peux utiliser pour faire l'une des fonctions ci-dessus de NLP?détails sur les termes suivants de traitement du langage naturel?

ne se sentent pas vraiment bifurquer dehors argent pour AlchemyAPI

+0

Peut-être que cela vous serait utile si vous décriviez ce que vous vouliez utiliser avec l'API Alchemy. – dmcer

Répondre

8

Il y a effectivement beaucoup de disponibles gratuitement open-source des logiciels de traitement de langage naturel là-bas. Voici une brève liste, organisée par quelle langue la boîte à outils est mis en œuvre:

Si vous ne savez pas lequel choisir w Je recommande de commencer par NLTK. Le paquet est raisonnablement facile à utiliser et a une grande documentation en ligne, y compris a free book.

Vous devriez pouvoir utiliser NLTK pour accomplir facilement les tâches PNL que vous avez listées, par ex. named entity recognition (NER), extracting tags for documents et document categorization. Ce que les gens d'Alchemy appellent structured data extraction ressemble à de la mise au rebut HTML qui est robuste contre les modifications du HTML sous-jacent tant que la page restitue visuellement la même chose. Donc, ce n'est pas vraiment une tâche PNL.

Pour l'extraction de texte à partir de HTML, utilisez simplement boilerpipe. C'est rapide, bon et gratuit.

+0

omg c'est la réponse que je cherchais! SI VOUS ÊTES IMPRESSIONNEL – wefwgeweg

+0

Si la tâche à accomplir est la tuyauterie, il n'est pas nécessaire de terminer un argument sur les données d'entraînement. – bmargulies

1

Le projet Apache UIMA a été créé à l'origine par IBM et fournit un framework NLP similaire à GATE. Il existe différents annotateurs conçus pour UIMA.

Questions connexes