2011-10-16 3 views
1

J'ai besoin d'un dictionnaire trié en fréquence pour un programme de compression (licence permissive ou compatible GPLv3), mais je n'ai pas la moindre idée de l'endroit où en obtenir une (toutes les notices de copyright étaient manquantes ou mauvaises). Quelqu'un aurait des recommandations quant à l'endroit où en obtenir un? J'ai cherché pendant un moment, mais ma seule option semble être de créer le mien, dont je doute de la qualité effective, en utilisant des livres électroniques. (Ce ne serait pas entièrement représentatif de tout l'anglais, et encore moins de l'anglais moderne, ma cible.)Où obtenir un dictionnaire trié par fréquence disponible pour une utilisation dans un logiciel libre?

PS: environ 200 000-50 000 mots est une bonne cible. D'énormes fichiers ne sont pas une bonne idée.

+0

@bmargulies Pourquoi pas? L'information devrait être gratuite. Si cela n'est pas encore fait, je ferai de mon mieux pour créer le mien et le coller sur l'interwebz gratuitement. Bien que je suppose que la qualité serait inférieure à celle d'un professionnel. (bien sûr, cela me prendrait un certain temps, donc j'espérais que c'était déjà fait) –

+0

Vous pourriez utiliser un corpus plus moderne, comme des articles de Wikipédia ou autre chose. – bdonlan

+0

Je ne peux pas utiliser un bot pour balayer wikipedia mais je peux? –

Répondre

3

Ce que vous voulez est une distribution unigram construite sur une grande quantité de texte anglais représentatif. Une «distribution unigramme» est le terme formel pour ce que vous appelez un «dictionnaire avec des fréquences».

Google a publié une collection géante de ngrams sous licence permissive.

Voir http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html.

ou http://books.google.com/ngrams/datasets.

Si vous n'avez pas besoin de tous ces mots obscurs, coupez simplement la distribution à ce que vous voulez. En ce qui concerne les licences, même la FSF dit que la licence GPL est inapplicable aux dictionnaires. Ils ne sont pas «source». Donc, la licence CC fonctionne parfaitement bien pour l'incorporation dans n'importe quoi. Si vous ne voulez pas avoir des données entièrement représentatives, téléchargez les dumps wikipedia et l'outil Ruby pour extraire le texte, et faites votre propre distribution unigram. Quoi que vous choisissiez, vous travaillerez avec beaucoup de données si vous voulez des résultats utiles.

+0

Problème n ° 1, il s'agit d'un peu trop d'informations à regrouper avec un compresseur de données. Problème n ° 2: il n'est pas compatible avec la GPL et n'est pas utilisable dans les logiciels libres. Ce sont également des données non triées. Juste l'ouverture de l'un des fichiers a traîné le foobar sur mon ordinateur, il a utilisé 6GiB ram avant de terminer l'éditeur de texte depuis le début de l'échange. –

+2

Bien sûr, il peut être utilisé dans un logiciel libre. C'est une licence Creative Commons illimitée. S'il a trop de mots pour vous, coupez les rares. – bmargulies

+0

Ensuite, j'ai supposé que c'est utile, mais ne répond pas à la question néanmoins, la masse de données aléatoires pourrait difficilement être qualifiée de "triée". –

1

Jetez un oeil ici: http://norvig.com/ngrams/

contient ce qui pourrait être ce dont vous avez besoin:

  1. 4,9 MB count_1w.txt - Les 1/3 millions de mots les plus fréquents, tout en minuscules, avec des comptes . (Appelé vocab_common dans le chapitre, mais j'ai changé les noms de fichier ici.)
  2. 5,6 MB count_2w.txt - Les 1/4 millions de bigrams les plus fréquents (en minuscules), avec des comptages.
Questions connexes