2017-08-21 6 views
0

Je suis en train de modéliser des articles sur la linguistique et j'utilise les expressions Gensim pour identifier les collocations fréquentes. Je veux être capable de marquer les termes comme «faire-soutenir» et «it-fissures» comme un seul mot, car ils sont une terminologie linguistique spécifique. Cependant, si je fais le modèle Gensim après avoir enlevé les mots vides, ces collocations ne seront pas trouvées (puisqu'elles contiennent des mots vides), si je fais le modèle après avoir supprimé les mots vides (ou les mots vides) identifie un tas de collocations non pertinentes. Existe-t-il un moyen d'ajouter manuellement des phrases qui devraient être reconnues comme des collocations par les phrases Gensim? Merci!Ajouter manuellement des collocations à gensim phraser

Répondre

0

La classe Phrases n'a pas la possibilité d'ajouter les bigrammes souhaités. Sa technique ne fait généralement pas attendre que les «mots d'arrêt» aient été supprimés avant le traitement.

Vous pouvez affiner le comportement de Phrases en essayant différentes valeurs 'threshold' et 'min_count'.

Si vous trouvez certains paramètres sont connexion phrases désirées, mais aussi quelques phrases indésirables qui correspondent toujours les mêmes seuils statistiques, peut-être ce n'est pas un grand mal, en dépit de la non-intuitivité de quelques-unes des phrases. Toutes ces techniques statistiques sont imprécises, et souvent mieux jugées par leurs résultats finaux sur des objectifs quantitatifs - plutôt que sur des bizarreries arbitraires/cas de figure trouvés dans une revue ad-hoc.

Si vous ne voulez creuser dans le code pour ajouter la possibilité de forcer certains bigrams, il pourrait être plus facile par la classe utilitaire Phraser, également dans le module phrases.py de gensim. Au prix d'un calcul initial supplémentaire, il réduit les données Phrases à une structure plus petite, avec seulement les bigrammes qui dépasseraient plus tard le seuil de combinaison. En tant que tel, il économise un peu de mémoire, et effectue des transformations de corpus plus tard un peu plus vite, mais si vous gardez seulement le Phraser, vous perdez la possibilité d'essayer d'autres seuils/min_counts en dessous de ce qui a été utilisé dans sa création. Mais vous pouvez potentiellement forcer des bigrams supplémentaires dans ses structures, après la création, plus facilement que de falsifier le modèle Phrases.

+0

Bonjour @gojomo. Pouvez-vous s'il vous plaît laissez-moi savoir si vous savez comment résoudre ce problème: https://stackoverflow.com/questions/47735393/gensim-phrases-usage-to-filter-n-grams –