détails sur les termes suivants de traitement du langage naturel?

Named Entity Extraction (extract ppl, cities, organizations) 
Content Tagging (extract topic tags by scanning doc) 
Structured Data Extraction 
Topic Categorization (taxonomy classification by scanning doc....bayesian) 
Text extraction (HTML page cleaning)

Y at-il des bibliothèques que je peux utiliser pour faire l'une des fonctions ci-dessus de NLP?détails sur les termes suivants de traitement du langage naturel?

ne se sentent pas vraiment bifurquer dehors argent pour AlchemyAPI

Source

2010-04-21 wefwgeweg

Peut-être que cela vous serait utile si vous décriviez ce que vous vouliez utiliser avec l'API Alchemy. – dmcer

Il y a effectivement beaucoup de disponibles gratuitement open-source des logiciels de traitement de langage naturel là-bas. Voici une brève liste, organisée par quelle langue la boîte à outils est mis en œuvre:

Python: Natural Language Toolkit NLTK
Java: OpenNLP, Gate et Stanford's JavaNLP
.NET: Sharp NLP

Si vous ne savez pas lequel choisir w Je recommande de commencer par NLTK. Le paquet est raisonnablement facile à utiliser et a une grande documentation en ligne, y compris a free book.

Vous devriez pouvoir utiliser NLTK pour accomplir facilement les tâches PNL que vous avez listées, par ex. named entity recognition (NER), extracting tags for documents et document categorization. Ce que les gens d'Alchemy appellent structured data extraction ressemble à de la mise au rebut HTML qui est robuste contre les modifications du HTML sous-jacent tant que la page restitue visuellement la même chose. Donc, ce n'est pas vraiment une tâche PNL.

Pour l'extraction de texte à partir de HTML, utilisez simplement boilerpipe. C'est rapide, bon et gratuit.

Source

2010-04-21 01:34:52 dmcer

omg c'est la réponse que je cherchais! SI VOUS ÊTES IMPRESSIONNEL – wefwgeweg

Si la tâche à accomplir est la tuyauterie, il n'est pas nécessaire de terminer un argument sur les données d'entraînement. – bmargulies

Le projet Apache UIMA a été créé à l'origine par IBM et fournit un framework NLP similaire à GATE. Il existe différents annotateurs conçus pour UIMA.

Source

2010-04-22 13:32:32 Thien

détails sur les termes suivants de traitement du langage naturel?

Répondre

Questions connexes