Le Stanford Parser (qui a été inscrit sur cette autre question SO) fera tout ce que vous énumérez.
Vous pouvez fournir vos propres balises POS, mais vous devrez faire une traduction vers le jeu Penn TreeBank si elles ne sont pas déjà dans ce format. Les analyseurs sont soit statistiques, soit non. Si ce n'est pas le cas, vous avez besoin d'un ensemble de règles de grammaire. Pas de parseurs sont vraiment construits de cette façon plus, sauf en tant que jouets, parce qu'ils sont vraiment mauvais ™. Ainsi, vous pouvez compter sur les données statistiques que Stanford Parser utilise (sans travail supplémentaire de votre part). Cela signifie, cependant, que les statistiques sur vos propres balises (si elles ne correspondent pas directement aux balises Penn TreeBank) seront ignorées. Mais puisque vous n'avez pas de statistiques pour vos tags de toute façon, cela devrait être prévu. Ils ont des analyseurs syntaxiques entraînés pour plusieurs autres langues, mais vous aurez besoin de vos propres données balisées si vous voulez vous rendre dans une langue qui n'est pas disponible. Il n'y a pas moyen de contourner cela, peu importe le parseur que vous utilisez.
Si vous connaissez Java (et je suppose que vous le faites), le Stanford Parser est très simple et facile à démarrer. Aussi leur liste de diffusion est une excellente ressource et est assez active.
Connaissez-vous un bon document sur Stanford Parser, sauf sa propre page. – hrzafer
J'ai écrit il y a longtemps un billet de blog qui est un peu une intro à ce sujet et des références que vous pourriez avoir besoin pour le Penn TreeBank: – ealdent
oups, le lien: http://mendicantbug.com/2007/10/25/ the-noobs-guide-à-parsing /. – ealdent