Fichiers d'information Wordnet (IC) Python

Existe-t-il de la documentation sur les principales différences entre les fichiers IC dans NLTK Wordnet? Plus précisément, en cherchant les différences entre brown_ic, semcor_ic, genesis_ic, etc., je peux donc déterminer lequel est le meilleur pour mon corpus de mots dans les efforts de similarité.Fichiers d'information Wordnet (IC) Python

Question supplémentaire: est-ce que toutes les mesures de similarité susmentionnées exigent que tous les mots soient dans le même point de vente?

Source

2017-08-07 Ksofiac

trouvé quelques détails sur brown_ic ici: https://stackoverflow.com/questions/18705778/what-is- l'utilisation-de-brun-corpus-en-mesure-sémantique-similitude-basée-sur-mot – Ksofiac

Je pense que vous devez google chaque corpus séparément. La liste à http://www.nltk.org/nltk_data/ donne vraiment seulement les tailles et la licence.

Le corpus Brown est l'anglais américain de 1961, un mélange de faits et de fiction. Voir https://en.wikipedia.org/wiki/Brown_Corpus

semcor est un sous-ensemble du corpus Brown.

genèse est un texte biblique selon http://nlpforhackers.io/corpora/ (qui donne des informations utiles sur quelques-uns des autres aussi)

Source

2017-08-10 12:13:01

Fichiers d'information Wordnet (IC) Python

Répondre

Questions connexes