stanford Core PNL: Séparation des phrases du texte

Je suis nouveau à stanford Core PNL. Je voudrais l'utiliser pour séparer des phrases de texte en anglais, allemand, français. A quelle classe cela fonctionne-t-il? Merci d'avance.stanford Core PNL: Séparation des phrases du texte

Source

2012-09-10 thetna

Pour les classes de niveau inférieur qui traitent cela, vous pouvez consulter le tokenizer documentation. Au niveau CoreNLP, vous pouvez simplement utiliser "tokenize, ssplit" de l'annotateur.

Source

2012-09-17 07:27:40

Quel est le moyen le plus simple d'obtenir la liste des phrases résultantes du pipeline? Je peux obtenir la liste , mais je ne sais pas comment obtenir la liste phrases. –

J'ai trouvé la solution: faire "phrase.get (TextAnnotation.class);" où phrase est un CoreMap. –

Pourquoi ne pas utiliser BreakIterator du package java.text ...... diviser phrases, lignes, mots, personnages ... etc

Voir ce lien:

http://docs.oracle.com/javase/6/docs/api/java/text/BreakIterator.html

Source

2012-09-10 18:01:19

il ne le savait pas avant. je vais regarder dedans. Merci. – thetna

Vous êtes les bienvenus .... –

Attention, il y a beaucoup de subtilités avec l'analyse syntaxique NLP qu'une stratégie simple telle que BreakIterator pourrait ne pas gérer correctement. Par exemple, seriez-vous capable de gérer correctement une phrase comme «Le pain coûte 4,99 $» ou «Quelle est la question? demanda la mère. Si vous êtes d'accord avec une solution naïve, BreakIterator fera l'affaire. Si vous voulez gérer ces cas de manière plus robuste, la bibliothèque PNL de Stanford est une excellente idée. –

Avez vous avez regardé la documentation sur le main Stanford NLP page? À peu près à mi-chemin, il fournit un exemple de presque la chose exacte que vous recherchez. L'exemple non seulement scinde les phrases, mais aussi les mots.

Source

2012-09-10 18:33:37

Properties properties = new Properties(); 
    properties.setProperty("annotators", "tokenize, ssplit, parse"); 
    StanfordCoreNLP pipeline = new StanfordCoreNLP(properties); 
    List<CoreMap> sentences = pipeline.process(SENTENCES) 
    .get(CoreAnnotations.SentencesAnnotation.class);  
    // I just gave a String constant which contains sentences. 
    for (CoreMap sentence : sentences) { 
      System.out.println(sentence.toString()); 
    }

Source

2016-04-05 20:30:08

stanford Core PNL: Séparation des phrases du texte

Répondre

Questions connexes