j'ai une ligne de cordes:Comment convertir la ligne de texte en mots significatifs
"specificationsinaccordancewithqualityaccreditedstandards"
qui doit être divisé en mots tokenizés tels que:
"specifications in accordance with quality accredited standards"
J'ai essayé nltk
« s word_tokenize
mais il n'a pas été en mesure de convertir,
Contexte: Je suis en train d'analyser un document PDF dans un fichier texte, et c'est le t ext que je reviens du convertisseur pdf, pour convertir le pdf en texte J'utilise PDFminer dans Python
Y at-il un autre convertisseur de PDF, vous pouvez essayer? Ça ne devrait pas bloquer tous les mots ensemble comme ça. – sniperd
vous allez très probablement rencontrer des problèmes d'ambiguïté. Par exemple: est le premier mot de cette chaîne "spécifique" (suivi de "at" et "ion", les deux mots uniques et valides) ou "spécification"? – Zinki
Avez-vous essayé la brute en forçant votre chemin en cherchant tous les mots du dictionnaire? Assez sûr que vous pouvez trouver une bibliothèque avec tous les mots et dans le dictionnaire anglais. – semicolon