2017-06-11 3 views
0

Utilisation de la PNL Stanford, je veux que mon texte à passer par la lemmatisation et la résolution de coréférence.Sortie PNL Stanford Mise en forme

Donc, pour un input.txt: «Stanford est situé en Californie Il est une grande université, fondée en 1891. » Je voudrais le output.txt: "Stanford être situé en Californie, Stanford être une grande université, trouvé en 1891."

Je cherche aussi à obtenir une table où la première colonne est constituée du nom-entités qui ont été reconnues dans le texte, et la deuxième colonne est la classe de nom, ils ont été identifiés comme. Ainsi, pour la phrase exemple ci-dessus, ce serait quelque chose comme:

1ère colonne 2e colonne Lieu Stanford, Organisation Californie Lieu

Ainsi, dans le tableau, le nom-entités se produirait qu'une seule fois.

Il n'y a rien que j'ai pu trouver en ligne sur la manipulation de la sortie XML par défaut ou de faire modifier directement le fichier texte d'entrée en utilisant la PNL. Pourriez-vous me donner des conseils sur la façon de s'y prendre?

+0

Il serait vraiment utile pour vous signaler cette balise avec le Java ainsi, afin d'attirer plus de gens à votre question. Vous devriez également lire ce guide comme la façon dont votre question est formulée, il est presque demandé à la communauté d'écrire le code pour vous (ce qui n'est pas ce que SO est à propos) https://codeblog.jonskeet.uk/2012/11/24/ stack-overflow-question-checklist / – Graham

Répondre

0

Si vous utilisez la ligne de commande, vous pouvez utiliser -outputFormat text pour obtenir une version lisible par l'utilisateur ou -outputFormat json pour obtenir une version json. En code Java, vous pouvez utiliser edu.stanford.nlp.pipeline.StanfordCoreNLP.prettyPrint() ou edu.stanford.nlp.pipeline.StanfordCoreNLP.jsonPrint() pour imprimer une annotation.