Je suis nouveau à stanford Core PNL. Je voudrais l'utiliser pour séparer des phrases de texte en anglais, allemand, français. A quelle classe cela fonctionne-t-il? Merci d'avance.stanford Core PNL: Séparation des phrases du texte
Répondre
Pour les classes de niveau inférieur qui traitent cela, vous pouvez consulter le tokenizer documentation. Au niveau CoreNLP, vous pouvez simplement utiliser "tokenize, ssplit" de l'annotateur.
Pourquoi ne pas utiliser BreakIterator
du package java.text
...... diviser phrases, lignes, mots, personnages ... etc
Voir ce lien:
http://docs.oracle.com/javase/6/docs/api/java/text/BreakIterator.html
il ne le savait pas avant. je vais regarder dedans. Merci. – thetna
Vous êtes les bienvenus .... –
Attention, il y a beaucoup de subtilités avec l'analyse syntaxique NLP qu'une stratégie simple telle que BreakIterator pourrait ne pas gérer correctement. Par exemple, seriez-vous capable de gérer correctement une phrase comme «Le pain coûte 4,99 $» ou «Quelle est la question? demanda la mère. Si vous êtes d'accord avec une solution naïve, BreakIterator fera l'affaire. Si vous voulez gérer ces cas de manière plus robuste, la bibliothèque PNL de Stanford est une excellente idée. –
Avez vous avez regardé la documentation sur le main Stanford NLP page? À peu près à mi-chemin, il fournit un exemple de presque la chose exacte que vous recherchez. L'exemple non seulement scinde les phrases, mais aussi les mots.
Properties properties = new Properties();
properties.setProperty("annotators", "tokenize, ssplit, parse");
StanfordCoreNLP pipeline = new StanfordCoreNLP(properties);
List<CoreMap> sentences = pipeline.process(SENTENCES)
.get(CoreAnnotations.SentencesAnnotation.class);
// I just gave a String constant which contains sentences.
for (CoreMap sentence : sentences) {
System.out.println(sentence.toString());
}
- 1. Stanford outils PNL et beaucoup de texte
- 2. Stanford PNL: Comment obtenir des morceaux
- 3. Comment obtenir des étiquettes de phrases dans Stanford CoreNLP?
- 4. PNL Stanford Toolkit Parse -Aide-moi à trouver le manuel
- 5. phrases de séparation utilisant l'expression rationnelle
- 6. Stanford Core NLP - comprendre la résolution de la coréférence
- 7. dépendances collpased avec stanford core nlp
- 8. Dépendance Maven: get ne télécharge pas les fichiers du modèle PNL de Stanford
- 9. Stanford NLP API pour les autres langues
- 10. Extraire des phrases clés du texte (1 à 4 mots)
- 11. Analyse du sens des phrases
- 12. PNL: manipulations morphologiques
- 13. Comment analyser une liste de phrases?
- 14. Séparation plus profonde dans le module Sandbox Core Javascript Pattern
- 15. Utilisation de la PNL pour relier les sujets dans les phrases
- 16. Comment faire des mots dans une catégorie. (PNL)
- 17. Quel est l'outil open-source le plus précis pour la division des phrases?
- 18. Analyse des dépendances de Stanford
- 19. PNL: phrase «positive» vs «négative» qualitativement
- 20. Calcul des mots, des phrases et des paragraphes à partir du texte entré par l'utilisateur
- 21. Comment diviser le résultat de PTBTokenizer en phrases?
- 22. résolution anaphore utilisant Stanford Coref
- 23. problème de séparation de texte
- 24. De quoi a besoin la PNL?
- 25. Stanford corenlp pause et continuer pipeline d'annotation
- 26. c/C++ bibliothèque PNL
- 27. Création d'une vue Android avec des phrases prédéfinies + nouveau texte
- 28. Séparation des résultats du tableau mysql fetch
- 29. Regex pour trouver toutes les phrases du texte?
- 30. Détecter la désignation des employés du texte en utilisant ner/nlp
Quel est le moyen le plus simple d'obtenir la liste des phrases résultantes du pipeline? Je peux obtenir la liste, mais je ne sais pas comment obtenir la liste phrases. –
J'ai trouvé la solution: faire "phrase.get (TextAnnotation.class);" où phrase est un CoreMap. –