Je suis en train d'isoler les mots simples dans un fichier pdf, mais lors de la lecture du fichier en utilisant le petit bijou pdf lecteur le texte arrive fracturé, comme celui-ciExiste-t-il une bibliothèque ruby pour vérifier si une chaîne est un mot valide?
"A lit"
"tle "
"bit of tex"
"t"
donc je prévois de mettre cela ensemble en utilisant des heuristiques. Pour cela, j'ai besoin d'une bibliothèque qui vérifie si une chaîne donnée est un mot anglais valide, comme
"tree".is_english? # => true
"askdjfah".is_english? # => false
Est-ce que cela existe? Idéalement, cela fonctionnerait également avec le texte allemand.
Sinon, y a-t-il un dictionnaire disponible gratuitement en ligne? Je suppose que je pourrais écrire ma propre structure d'arbre pour faire la recherche, si je devais.
Pour faire ce que vous voulez, une bibliothèque devrait * incorporer * un dictionnaire. Étant donné que personne ne sait combien de mots il y a dans la langue anglaise (et cela augmente tout le temps), il serait difficile de fournir une couverture complète, sans même tenir compte * d'autres langues *. Vous pouvez certainement télécharger un dictionnaire et rouler le vôtre, mais je pense que vous trouverez la couverture inadéquate. – pavium