Comment utiliser hmmlearn pour classer le texte en anglais?

Je souhaite implémenter un problème de modèle de Markov classique: Former MM pour apprendre les modèles de texte anglais, et l'utiliser pour détecter le texte anglais par rapport aux chaînes aléatoires. J'ai décidé d'utiliser hmmlearn pour ne pas avoir à écrire le mien. Cependant, je suis confus sur la façon de l'entraîner. Il semble exiger le nombre de composants dans le HMM, mais quel est le nombre raisonnable pour l'anglais? Aussi, je ne peux pas faire un simple modèle de Markov d'ordre supérieur au lieu de caché? Vraisemblablement, la propriété intéressante est les patrons de ngrams, pas les états cachés.Comment utiliser hmmlearn pour classer le texte en anglais?

Source

2017-04-03 Superbest

hmmlearnhmmlearnhmmlearnhmmlearn est conçu pour l'apprentissage non supervisé de HMM, tandis que votre problème est clairement supervisé: apprendre des exemples de chaînes anglaises et aléatoires, apprendre à distinguer les deux. En outre, comme vous l'avez correctement souligné, la notion d'états cachés est difficile à définir pour les données textuelles. Par conséquent, pour votre problème, les MM simples seraient plus appropriés. Je pense que vous devriez être capable de les implémenter dans < 100 lignes de code en Python.

Source

2017-04-11 20:25:30

Comment utiliser hmmlearn pour classer le texte en anglais?

Répondre

Questions connexes