J'ai besoin d'un dictionnaire trié en fréquence pour un programme de compression (licence permissive ou compatible GPLv3), mais je n'ai pas la moindre idée de l'endroit où en obtenir une (toutes les notices de copyright étaient manquantes ou mauvaises). Quelqu'un aurait des recommandations quant à l'endroit où en obtenir un? J'ai cherché pendant un moment, mais ma seule option semble être de créer le mien, dont je doute de la qualité effective, en utilisant des livres électroniques. (Ce ne serait pas entièrement représentatif de tout l'anglais, et encore moins de l'anglais moderne, ma cible.)Où obtenir un dictionnaire trié par fréquence disponible pour une utilisation dans un logiciel libre?
PS: environ 200 000-50 000 mots est une bonne cible. D'énormes fichiers ne sont pas une bonne idée.
@bmargulies Pourquoi pas? L'information devrait être gratuite. Si cela n'est pas encore fait, je ferai de mon mieux pour créer le mien et le coller sur l'interwebz gratuitement. Bien que je suppose que la qualité serait inférieure à celle d'un professionnel. (bien sûr, cela me prendrait un certain temps, donc j'espérais que c'était déjà fait) –
Vous pourriez utiliser un corpus plus moderne, comme des articles de Wikipédia ou autre chose. – bdonlan
Je ne peux pas utiliser un bot pour balayer wikipedia mais je peux? –