2010-09-30 5 views
0

Je cherche un analyseur (ou analyseur généré) en java qui est capable de followings:Java Parser pour Langauge naturel

1- Je fournirai des phrases qui sont déjà marquées partie du discours. Je vais utiliser mon propre jeu d'étiquettes. 2- Je n'ai pas de données statistiques. Donc, si l'analyseur est statistique, je veux pouvoir l'utiliser sans cette fonctionnalité. 3- Adaptable à d'autres langues facilement. courbe d'apprentissage faible

Ma question est un peu semblable à celui

https://stackoverflow.com/questions/88984/your-favorite-natural-language-parser

Mais il n'y a pas là une réponse satisfaisante. Merci.

Répondre

4

Le Stanford Parser (qui a été inscrit sur cette autre question SO) fera tout ce que vous énumérez.

Vous pouvez fournir vos propres balises POS, mais vous devrez faire une traduction vers le jeu Penn TreeBank si elles ne sont pas déjà dans ce format. Les analyseurs sont soit statistiques, soit non. Si ce n'est pas le cas, vous avez besoin d'un ensemble de règles de grammaire. Pas de parseurs sont vraiment construits de cette façon plus, sauf en tant que jouets, parce qu'ils sont vraiment mauvais ™. Ainsi, vous pouvez compter sur les données statistiques que Stanford Parser utilise (sans travail supplémentaire de votre part). Cela signifie, cependant, que les statistiques sur vos propres balises (si elles ne correspondent pas directement aux balises Penn TreeBank) seront ignorées. Mais puisque vous n'avez pas de statistiques pour vos tags de toute façon, cela devrait être prévu. Ils ont des analyseurs syntaxiques entraînés pour plusieurs autres langues, mais vous aurez besoin de vos propres données balisées si vous voulez vous rendre dans une langue qui n'est pas disponible. Il n'y a pas moyen de contourner cela, peu importe le parseur que vous utilisez.

Si vous connaissez Java (et je suppose que vous le faites), le Stanford Parser est très simple et facile à démarrer. Aussi leur liste de diffusion est une excellente ressource et est assez active.

+0

Connaissez-vous un bon document sur Stanford Parser, sauf sa propre page. – hrzafer

+0

J'ai écrit il y a longtemps un billet de blog qui est un peu une intro à ce sujet et des références que vous pourriez avoir besoin pour le Penn TreeBank: – ealdent

+1

oups, le lien: http://mendicantbug.com/2007/10/25/ the-noobs-guide-à-parsing /. – ealdent

1

Je ne suis pas très clair sur ce que vous voulez, mais la première chose que je pensais était Mallet:

http://mallet.cs.umass.edu/index.php

+0

Il semble que la bibliothèque Mallet ne possède pas d'analyseur. – hrzafer

+0

Mallet est un outil d'étiquetage de séquence, également appelé analyse superficielle. –