Je suis nouveau à la PNL et je cherche un point de départ, en termes de tutoriels, de documentation ou d'exemple de code. On m'a dit d'étudier les possibilités de traitement du texte naturel pour en extraire des données structurées. Par exemple, je veux extraire (annoter) la hauteur et le poids des instructions suivantes. "Il a 6 pieds de haut et pèse 200 livres" ou "Sa taille est de 6 pieds et son poids est de 200" etc J'ai regardé dans UIMA mais il semble être un dictionnaire REGEX auto-créé sans capacités d'entraînement. Donc, en un mot, quel framework Java puis-je utiliser pour créer un moteur d'annotation qui peut aussi être entraîné! Toute aide (pointeur) sera fortement appréciée. MerciNouveau en PNL, Question sur l'annotation
Répondre
Si vous voulez vraiment utiliser l'apprentissage automatique pour former votre annotateur, alors GATE est probablement votre meilleur pari. Jetez un oeil au chapitre sur machine learning dans leur guide.
Depuis que vous avez demandé des pointeurs: LingPipe (déjà mentionnés ci-dessus), OpenNLP et Stanford NLP distributions. Remarque: si Python est une option, vous pouvez utiliser Natural Language Toolkit.
+1, le meilleur départ est d'opter pour des frameworks de programmation NLP car, à ce stade, un débutant n'a pas besoin de perdre du temps pour entrer dans les détails architecturaux de solutions, telles que GATE ou apache UIMA. – Skarab
@Skarab Je ne suis pas d'accord, @NLP déclare qu'il veut créer un moteur d'annotation pour l'extraction de faits et c'est exactement pour cela que GATE et UIMA sont conçus. Les bibliothèques mentionnées ci-dessus feront l'analyse lexicale et syntaxique mais il y a encore beaucoup de travail à faire après cela. – Stompchicken
@StompChicken Récemment j'ai guidé un projet d'étudiant et les participants ont décidé d'utiliser Apache UIMA. Cela leur a vraiment pris beaucoup de temps, avant qu'ils aient appris assez pour construire les premiers vrais pipelines d'extraction. Personnellement j'utilise UIMA et je peux le recommander mais après avoir obtenu la première expérience avec lingpipe ou Natural Language Toolkit. – Skarab
J'utiliserais NER. Voici la sortie que je vois pour votre texte d'entrée:
Vous pouvez l'essayer ici: http://deagol.cs.illinois.edu:8080
- 1. PNL: manipulations morphologiques
- 2. c/C++ bibliothèque PNL
- 3. De quoi a besoin la PNL?
- 4. PNL: phrase «positive» vs «négative» qualitativement
- 5. Bibliothèque PNL pour Java langage de programmation
- 6. supprimer & nouveau en C++
- 7. Question sur & operator en C++
- 8. question sur auto en C++
- 9. Question sur l'alignement en Java
- 10. Question sur strpos en PHP
- 11. Question sur GridBagLayout en Java
- 12. question sur opérateur% en C++
- 13. question sur pexpect en python
- 14. Nouveau sur ASP.NET
- 15. Petite question sur les en-têtes précompilés
- 16. Question sur tableau copie superficielle en C#
- 17. Question rapide sur les sessions en PHP
- 18. PNL Stanford Toolkit Parse -Aide-moi à trouver le manuel
- 19. Comment faire des mots dans une catégorie. (PNL)
- 20. Question sur les pointeurs en Objective-C
- 21. Oracle Forms 6i question maître-détail d'un débutant douloureusement nouveau
- 22. concept question sur dll
- 23. Django question newbie: ne peut pas démarrer un nouveau projet
- 24. Chronique (analyseur de date/heure PNL Ruby) pour python?
- 25. Nouveau sur OpenGL et désapprobation
- 26. System.Web.AspNetHostingPermission Exception sur Nouveau déploiement
- 27. Question sur l'opérateur d'affectation en C++
- 28. Question sur Rechercher membre Enum en C#
- 29. Question sur l'instruction préparée en Java
- 30. Question sur les performances LINQ2Sql en C#
btw. Pour en savoir plus sur le début de l'art dans les techniques d'extraction de l'information, je recommande de lire un récent sondage de Sunita Sarawagi - http://osm.cs.byu.edu/CS652s09/papers/Sarawagi.ieSurvey.pdf – Skarab