2017-08-07 5 views
1

Existe-t-il de la documentation sur les principales différences entre les fichiers IC dans NLTK Wordnet? Plus précisément, en cherchant les différences entre brown_ic, semcor_ic, genesis_ic, etc., je peux donc déterminer lequel est le meilleur pour mon corpus de mots dans les efforts de similarité.Fichiers d'information Wordnet (IC) Python

Question supplémentaire: est-ce que toutes les mesures de similarité susmentionnées exigent que tous les mots soient dans le même point de vente?

+0

trouvé quelques détails sur brown_ic ici: https://stackoverflow.com/questions/18705778/what-is- l'utilisation-de-brun-corpus-en-mesure-sémantique-similitude-basée-sur-mot – Ksofiac

Répondre

0

Je pense que vous devez google chaque corpus séparément. La liste à http://www.nltk.org/nltk_data/ donne vraiment seulement les tailles et la licence.

Le corpus Brown est l'anglais américain de 1961, un mélange de faits et de fiction. Voir https://en.wikipedia.org/wiki/Brown_Corpus

semcor est un sous-ensemble du corpus Brown.

genèse est un texte biblique selon http://nlpforhackers.io/corpora/ (qui donne des informations utiles sur quelques-uns des autres aussi)