2015-10-17 2 views
0

J'essaye de marquer une page HTML pleine de nombres séparés par des espaces comme "5320412185 5320412184 5320412189 ..." pour observer comment le tagger se comporte avec des nombres. J'utilise english-left3words-distsim.tagger dans le constructeur. J'observe sur la console que la plupart des numéros sont marqués CD mais parfois il y a aussi des numéros qui se sont marqués comme NN. J'ai cherché sur la page FAQ de nlp.stanford.edu mais je ne pouvais pas trouver ça là. Quelqu'un peut-il m'aider à comprendre cela?Pourquoi les numéros d'étiquettes MaxentTagger sont-ils parfois NN?

Je ne sais pas si je devrais mentionner ceci: Je donne chaque numéro séparément au marqueur en séparant l'énorme entrée (1045000 numéros!) En fonction du délimiteur d'espace.

+0

Salut, ma première réponse n'a pas été correcte, je me suis aperçu que je ne comprenais pas tout à fait votre problème. Maintenant j'ai révisé ma réponse, cela devrait être la solution de votre problème. L'avez-vous encore vérifié? – ferit

Répondre

1

De Tagging partiel du discours lignes directrices du projet Penn Treebank (3e révision)

Parfois, on ne sait pas si on est numéro cardinal ou un nom. En général, il doit être marqué comme cardinal (CD) même si son sens n'est pas clairement celui d'un nombre.

EXAMPLE: one/CD of the best reasons 

Mais si elle pouvait être ou modifié par pluralisé un adjectif dans un contexte particulier, il est un nom commun (NN).

EXAMPLE: the only (good) one/NN of its kind 
     (cf. the only (good) ones/NNS of their kind) 

Dans la colocalisation autre, on doit également être identifiée comme étant un nom commun (NN). Les fractions cigarrées d'un demi, trois quarts, sept huitièmes, un et demi, sept et trois huitièmes devraient être marqués comme adjectifs (JJ) quand ils sont modificateurs prénominaux, mais comme adverbes (RB) s'ils pouvaient être remplacés par des doubles ou deux fois.

Pour en savoir plus: http://repository.upenn.edu/cgi/viewcontent.cgi?article=1603&context=cis_reports

+1

Merci pour votre réponse @Saibot. Ce que vous avez expliqué semble être pour des nombres exprimés en mots anglais. Mais ma page d'entrée a des chiffres réels dont certains sont étiquetés comme "NNS" et "NN". Je vais passer par ce PDF. Merci beaucoup pour ce fichier! – AshwiniR