2017-10-19 4 views
1

Comme le titre de cet article, je voudrais savoir s'il est possible d'utiliser StanfordCoreNLP pour obtenir une analyse de constituants d'un texte tout en utilisant une tokenisation préexistante, potentiellement externe, du texte. Je cherche à le faire sur des textes écrits en français. Je suppose que si c'était possible, seul le fichier contenant la description des jetons serait nécessaire, puisqu'une version du texte pourrait être reconstruite à partir de ce fichier. Je suppose que cela pourrait être possible si on devait programmer en Java, et utiliser directement les classes java, mais comme je ne connaissais pas beaucoup java, je voulais savoir si une telle chose était possible en utilisant une instruction en ligne de commande. Est-ce que quelqu'un a des connaissances sur une telle chose?Est-il possible d'utiliser StanfordCoreNLP pour obtenir l'analyse de la circonscription tout en utilisant une tokenisation préexistante?

J'ai cherché une réponse à cette question par googler, et la navigation sur le site StanfordCoreNLP (https://nlp.stanford.edu/), en particulier cette page https://nlp.stanford.edu/software/, mais n'a pas trouvé ce que je cherchais. Lorsque je cherchais un moyen d'obtenir des informations sur le logiciel, j'ai trouvé que l'on nous disait de poser une question sur StackOverflow. Maintenant, pour une formulation précise de ma question: existe-t-il un moyen d'utiliser le StanfordCoreNLP avec l'interface de ligne de commande afin d'obtenir des informations d'analyse de circonscription sur un texte écrit en français tout en forçant StanfordCoreNLP à respecter un pré-existant, tokenization d'entrée de ce texte? Si la réponse est oui, où puis-je me documenter d'une telle manière?

Edit: Exemple: Je vais donner un exemple d'une telle chose se fait sur un texte écrit en anglais:

Texte brut: «John est allé en voyage; ce qui était plutôt bien. »

Texte signé: « John partit en voyage; ce qui était plutôt bien. » (Ici, la différence du texte brut est que les signes de ponctuation ont été séparés de leur mot précédent respectif)

parsing Circonscription du texte: « (ROOT (S (NP (NNP John)) (VP (VBD est allé) (PP (IN on) (NP (NP (DT a) (voyage NN)) (:;) (SBAR (WHNP (WDT lequel)) (S (VP (VBD était) (ADJP (RB tout à fait) (JJ Nice)))))))) (..))) »

comme vous pouvez le voir, l'analyse syntaxique de la circonscription peut être considérée comme une annotation du résultat de l'étape de tokens. Je sais actuellement comment utiliser la suite StanfordCoreNLP pour calculer des informations d'analyse de groupes, entre autres types d'informations, en fournissant le texte brut, mais je suppose que, pour y parvenir, la suite StanfordCoreNLP effectue sa propre étape de tokenisation.

Je voudrais savoir s'il existe un moyen de forcer la suite StanfordCoreNLP à utiliser/respecter une tokenisation prédéfinie d'un texte en français.

Edit 2:

Merci pour la réponse. Incidemment, cela m'a fait apprendre comment on peut paramétrer les différents annotateurs utilisés pendant le processus de pipeline de StanfordCoreNLP, en utilisant le format "{annotator_name}. {Option_name}" sur la ligne de commande; La prochaine fois, je serai en mesure de mieux comprendre la documentation de StanfordCoreNLP lors de la navigation.

+0

Quelques commentaires pour améliorer votre question aidant ainsi les autres à y répondre: 1. Donnez des exemples pour illustrer ce que vous voulez réaliser. 2. Notez les approches que vous avez déjà essayées. 3. Résumez la question que vous voulez poser et mettez-la à la fin. Soyez très précis avec la question. – FacePalm

Répondre

1

Utilisez l'option tokenize.whitespace et fournissez votre texte segmenté par des espaces. Cette option créera uniquement des mots séparés par des espaces.