2015-07-15 1 views
0

Je suis nouveau à Stanford CoreNLP, Initialement j'ai travaillé avec le projet de Moses. Jusqu'à présent, j'ai travaillé avec le fichier démo ParserDemo2 et tout a bien fonctionné en utilisant le modèle englishPCFG.caseless.ser.gz. J'ai besoin de créer mon propre modèle, à partir du corpus monolingue anglais de texte que j'ai. Jusqu'à présent, j'ai cherché et trouvé que je devais créer un TreeBank et utiliser la méthode trainFromTreebank dans la classe LexicalizedParser.Stanford CoreNLP modèle de train du fichier texte comme englishPCFG.ser.gz

Je suis vraiment confus comment faire ceci.

Pouvez-vous fournir des informations ou me diriger vers la documentation sur la façon de le faire?

Répondre

0

Les réponses FAQ Stanford Parser: "Can I train the parser?"

Il est probablement plus facile de commencer par un modèle de PDGF de vanille puis travailler votre chemin avec l'état-fractionnement, etc. à des modèles plus complexes. Voir "Can I just use the parser as a vanilla PCFG parser?"

+0

Je suis confus au sujet de la façon de faire au corpus monolingues normales au format Penn Treebank Je suis allé à https://www.cis.upenn.edu/~treebank/ mais n'a pas trouvé quelque chose d'utile. – user2800040

+0

Que signifie «corpus monolingue»? À quoi ressemblent les données? Il doit déjà avoir des annotations d'analyse de circonscriptions déjà en place. –

+0

Tout ce que j'ai est un grand corpus de phrases en anglais, à l'aide duquel j'ai besoin de former le modèle. – user2800040