2013-02-07 4 views
1

Je dois extraire les groupes nominaux de l'arborescence, mais je suis incapable d'extraire les noms de l'arborescence en utilisant le modèle regex.Comment extraire les mots de l'arborescence en utilisant le modèle Regex

Voici la structure de l'arbre

(TOP (ADJP (JJ bienvenus) (PP (TO) (Les NP (NNP régulières) (NNP Expression) (les leçons apprises NNS)))))

I besoin d'extraire tous les mots qui sont pos tags comme NP, NNP, NNS etcie; J'ai besoin de trouver les mots Regular, Expression, learnings en utilisant le pattern regex.

Quelqu'un peut-il m'aider s'il vous plaît comment obtenir ceci.

+0

Je recommande d'analyser à structure arborescente réelle en mémoire puis trouver ce que vous voulez. –

+0

Qu'allez-vous extraire pour 'NP'? – Michael

+0

Avez-vous essayé quelque chose? –

Répondre

1

Pas sûr que ce soit ce que vous avez voulu mais cela extraire ces mots pour vous:

Pattern regexpPattern = Pattern.compile("([A-Z]?[a-z]+)\\)"); 
Matcher m = regexpPattern.matcher("your string"); 
while (m.find()) { 
    System.out.println(m.group(1)); 
} 
Questions connexes