2010-05-12 3 views
3

Je travaille sur une fonctionnalité, c'est-à-dire appliquer des règles de segmentation de la langue (grammatical) pour la langue latine (anglais actuellement).latin bases langage segmentation règles grammaticales

Actuellement, je suis en phase de rupture de phrases d'entrée utilisateur.

e.g.: 

"I am working in language translation". "I have used Google MT API for this" 

Dans l'exemple ci-dessus, je briserai ci-dessus phrase par point (.) C'est le cas normal où je romps peine à point, mais il y a un nombre n de caractères pour briser phrase comme (.! Etc) .

J'ai les règles SRX suivantes pour la segmentation.

Voici ma question sont les suivants: -

1) Y at-il référence? que je peux utiliser pour résoudre mes règles de segmentation de langue.

2) Ou Y at-il des forums sur la segmentation des langues?, de sorte que je puisse discuter efficacement

S'il vous plaît laissez-moi savoir si quelqu'un sait à ce sujet?

Merci beaucoup.

+0

Vos tags n'ont pas vraiment de sens, je l'ai changé pour quelque chose qui (je pense) est un peu mieux ... il s'agit de langages naturels, mais * programmation * langage agnostique :) –

+0

Hey merci de répondre rapidement :) oui ...exactement c'est le langage naturel pas un langage de programmation .. J'ai déjà suivi http://www.lisa.org/fileadmin/standards/srx20.html#refTR29 (règles SRX) mais je ne suis pas en interaction avec ces gars ... suggérer moi d'autres liens ou forum afin que je puisse interagir efficacement ... merci – pravin

+0

Eh bien comme l'anglais est principalement basé sur un dialecte saxon de l'âge des ténèbres. Le grammer est un mélange assez unique de vieux allemand, norse avec une poignée de français médiéval. Il y a beaucoup de mots volés en latin mais à part l'étrange bizarrerie (Datum au singulier pour Data) il n'y a presque pas de grammaire en anglais. –

Répondre

1

Vous voulez probablement jeter un oeil à l'article de Reynar et Ratnaparkhi A Maximum Entropy Approach to Identifying Sentence Boundaries (1997).

Résumé

Nous présentons un modèle trainable pour identifier limites de la phrase dans le texte brut. Étant donné un corpus annoté avec des limites de phrases, notre modèle apprend à classer chaque occurrence de.,?, Et/comme une limite de phrase valide ou invalide. La procédure de formation ne nécessite aucune règle fabriquée à la main, lexica, des étiquettes de partie de discours ou des informations propres au domaine . Le modèle peut donc être formé facilement sur n'importe quel genre d'anglais, et devrait être entraînable sur n'importe quel autre langue de Romanalphabet. La performance est comparable ou mieux que la performance de systèmes similaires, mais nous soulignons la simplicité de recyclage pour les nouveaux domaines.

Leur comme est connu segmenteur de phrase résultant MxTerminator et est disponible here.