2014-04-24 3 views
3

Je travaille sur un projet et j'ai besoin d'un outil ou d'une API pour détecter des fragments de phrase dans un texte volumineux. Il existe de nombreuses solutions telles que OpenNLP pour détecter des phrases dans un fichier donné. Cependant, je n'ai pas trouvé de solution explicite au problème de trouver des mots, des phrases ou des combinaisons de caractères d'événements qui n'appartiennent à aucune phrase grammaticalement correcte.Comment détecter automatiquement des fragments de phrase dans un fichier texte

Toute aide sera grandement appréciée.

Merci,

Lorderon

Répondre

1

vous pouvez utiliser n-grammes comme une œuvre autour de:

Supposons que vous ayez une grande collection de texte avec des phrases réelles pour référence. Vous pouvez extraire toutes les séquences de 1, 2, 3, 4, 5, ou plusieurs mots et ensuite dans votre texte, vérifier si les fragments de votre texte existent en tant que n-grammes.

Vous pouvez télécharger des n-grammes directement depuis google: http://googleresearch.blogspot.de/2006/08/all-our-n-gram-are-belong-to-you.html mais vous aurez peut-être besoin de beaucoup de trafic.

Vous pouvez également compter les ngrams vous-même dans ce cas, vous pouvez prendre les ensembles de données analysables du wikipedia de mon site Web: http://glm.rene-pickhardt.de/data/ et le code source de https://github.com/renepickhardt/generalized-language-modeling-toolkit afin de créer les ngrams vous-même (ou tout autre ngram boîte à outils comme srilm, kylm, opengrm, ...)

+0

Salut Rene. Merci pour votre réponse. Je ne sais pas si les n-grammes pourraient m'aider. Comment seriez-vous sûr que 5 grammes ou même 3 grammes ne sont parfois pas une seule phrase? J'essaie juste de comprendre cela parce que je ne suis pas un linguiste computationnel. En outre, comment je vérifierais si les faux positifs ne sont pas grands quand j'ai un gros texte de données. – Lorderon

Questions connexes