2016-08-31 3 views
0

J'ai travaillé sur un projet que je dois apprendre à utiliser les outils PNL. Je l'écris en C#, et j'utilise donc la bibliothèque SharpNLP (basée sur OpenNLP), qui inclut également une bibliothèque d'accès WordNet. Je fais de la pratique avec la fonction de segmentation parce que mon programme va beaucoup l'utiliser pour modifier certains mots dans une phrase mais pas d'autres, selon le rôle qu'ils jouent dans la phrase. Le chunker sort des phrases avec des étiquettes d'abréviation de parse-tree qui leur sont attachées, ainsi que des mots individuels (ce qui est plus important pour moi dans ma situation), mais le problème est que je ne sais pas quelle est la moitié d'entre eux signifie, et je ne peux pas sembler trouver une liste complète de ce que toutes les abréviations signifient; tous les didacticiels de l'arbre d'analyse que je trouve juste énumèrent ceux qui existent sur cet arbre d'analyse. Je connais des choses comme NP = expression nominale, PP = phrase de préposition, VP = phrase verbale, et je pense que DT = déterminateur (je l'ai vu abrégé en D une fois). J'en connais quelques autres, mais je suis sûr qu'il y en a beaucoup que je ne connais pas (JJ, NNS, NN, etc.) donc je me demande s'il y a une liste quelque part où tous les noms sont listés, comme ainsi idéalement une description/des exemples de chaque article.Traitement du langage naturel abréviations d'arbre d'analyse

Répondre

0

Microsoft Cognitive Services utilise le Penn Tree Bank specification que je suppose est assez proche, sinon la même chose.

+1

Les liens sur ce site sont pour la plupart cassés, mais j'ai cherché "Treebank partie des étiquettes de discours" et trouvé [cette page] (https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos. html) qui a exactement ce dont j'ai besoin. Il s'avère que le chunker de ma bibliothèque est basé sur Treebank, donc la page que j'ai trouvée correspond à ce que mon chunker va sortir parfaitement. Merci! – TheQuack45