2017-08-11 5 views
1

J'ai deux incorporations de mots disponibles au public telles que Glove et Google Word2vec. Cependant, dans leur vocabulaire, il y a trop de mots mal orthographiés ou de mots d'ordures (par exemple, ## AA ##, adirty, etc.). Pour éviter ces mots, je voudrais extraire des mots fréquents (par exemple, top 50000 mots) car je pense que les mots fréquents relativement élevés ont des formes normales. Donc, je me demande s'il y a un moyen de trouver la fréquence des mots au-dessus de deux plongements de mots pré-levés. Sinon, je veux savoir s'il existe des techniques pour exclure ces mots.Extrait des mots les plus significatifs de l'incorporation de mots disponibles au public

Répondre

1

Le jeu de vecteurs GoogleNews ne contient pas d'informations sur les fréquences, mais semble être trié du plus fréquent au moins fréquent. Donc, si vous changez le code qui le charge pour ne charger que les N premiers mots, vous devriez obtenir les N mots les plus fréquents.

(La bibliothèque gensim Python pour la formation ou de travail avec le mot-vecteurs comprend cela comme une option limit la fonction load_word2vec_format().)

Glove peut suivre la même convention - un regard sur l'ordre-de-mots le fichier devrait donner une bonne idée.