2010-02-17 8 views
1

Je suis en train d'isoler les mots simples dans un fichier pdf, mais lors de la lecture du fichier en utilisant le petit bijou pdf lecteur le texte arrive fracturé, comme celui-ciExiste-t-il une bibliothèque ruby ​​pour vérifier si une chaîne est un mot valide?

"A lit" 
"tle " 
"bit of tex" 
"t" 

donc je prévois de mettre cela ensemble en utilisant des heuristiques. Pour cela, j'ai besoin d'une bibliothèque qui vérifie si une chaîne donnée est un mot anglais valide, comme

"tree".is_english? # => true 
"askdjfah".is_english? # => false 

Est-ce que cela existe? Idéalement, cela fonctionnerait également avec le texte allemand.

Sinon, y a-t-il un dictionnaire disponible gratuitement en ligne? Je suppose que je pourrais écrire ma propre structure d'arbre pour faire la recherche, si je devais.

+0

Pour faire ce que vous voulez, une bibliothèque devrait * incorporer * un dictionnaire. Étant donné que personne ne sait combien de mots il y a dans la langue anglaise (et cela augmente tout le temps), il serait difficile de fournir une couverture complète, sans même tenir compte * d'autres langues *. Vous pouvez certainement télécharger un dictionnaire et rouler le vôtre, mais je pense que vous trouverez la couverture inadéquate. – pavium

Répondre

3

Vous pouvez vérifier raspell, ou même appeler manuellement aspell, avec n'importe quel dictionnaire que vous aimez.

0

Je ne connais aucune bibliothèque qui fasse ce que vous voulez, mais il y a des dictionnaires avec des mots. Il ne devrait pas être difficile de les trouver sur google. Par exemple this.

2

Si l'outil unix look est installé sur votre système, vous pouvez vérifier si un mot est un mot facilement. Exemple:

est ici plus d'informations sur look: http://docstore.mik.ua/orelly/unix/upt/ch27_18.htm

Depuis regard utilise le dictionnaire de mot dans/usr/dict/mots, je pense qu'il est possible d'installer un mot dictionnaire. Recherchez le paquetage wgerman dans Debian. Je ne suis pas sûr de savoir comment l'installer sur d'autres systèmes.

+0

il semble chercher le préfixe dans le dictionnaire, de toute façon chercher la chaîne exacte? –

Questions connexes