J'ai une liste de mots et je veux trouver combien de fois ils se produisent dans un fichier .txt. La liste de mots est quelque chose comme ce qui suit:Comment compter le nombre d'occurrences d'une liste d'éléments dans un autre fichier .txt?
wordlist = ['cup', 'bike', 'run']
Je veux être en mesure non seulement de ramasser ces mots, mais aussi des choses comme CUP, cycliste, course, tasses, etc. Je pense que je besoin d'un régulier expression. Voici ce que je pensais mais cela ne fonctionne pas:
len(re.findall(wordlist, filename, re.I))
Merci d'avance!
Même en ajoutant le début et la fin de l'ajustement des mots, il y aura toujours des mots qui ne devaient pas être trouvés (par exemple "hiccup", "runt", etc.). Peut-être en utilisant WordNet ou quelque chose d'autre dictionnaire pour trouver toutes les différentes formes d'un mot, puis utilisez les limites de mots des deux côtés des termes de recherche ... – tgray
Merci, @tgray. J'ai peaufiné ma réponse pour inclure un motif pour faire correspondre des mots entiers. – eksortso
Merci eksortso! Je n'ai pas compris la différenciation modèle/chaîne et maintenant je le vois. La liste de mots que j'utilise actuellement est composée de mots plus longs, donc je ne devrais pas tomber sur les problèmes étranges qui surviennent avec cup and run, mais je penserai certainement plus à utiliser des mots entiers seulement. Merci! – dandyjuan