J'essaye de marquer une page HTML pleine de nombres séparés par des espaces comme "5320412185 5320412184 5320412189 ..." pour observer comment le tagger se comporte avec des nombres. J'utilise english-left3words-distsim.tagger
dans le constructeur. J'observe sur la console que la plupart des numéros sont marqués CD
mais parfois il y a aussi des numéros qui se sont marqués comme NN
. J'ai cherché sur la page FAQ de nlp.stanford.edu mais je ne pouvais pas trouver ça là. Quelqu'un peut-il m'aider à comprendre cela?Pourquoi les numéros d'étiquettes MaxentTagger sont-ils parfois NN?
Je ne sais pas si je devrais mentionner ceci: Je donne chaque numéro séparément au marqueur en séparant l'énorme entrée (1045000 numéros!) En fonction du délimiteur d'espace.
Salut, ma première réponse n'a pas été correcte, je me suis aperçu que je ne comprenais pas tout à fait votre problème. Maintenant j'ai révisé ma réponse, cela devrait être la solution de votre problème. L'avez-vous encore vérifié? – ferit