Je dois effectuer des retouches sur des chaînes portugaises. Pour ce faire, je symbolise la chaîne à l'aide de la fonction nltk.word_tokenize() puis j'enchaîne chaque mot individuellement. Après cela, je reconstruis la chaîne. Cela fonctionne, mais ne fonctionne pas bien. Comment puis-je le faire plus vite? La longueur de la chaîne est d'environ 2 millions de mots.Libérer des chaînes complètes sur Python
tokenAux=""
tokens = nltk.word_tokenize(portugueseString)
for token in tokens:
tokenAux = token
tokenAux = stemmer.stem(token)
textAux = textAux + " "+ tokenAux
print(textAux)
Désolé pour le mauvais anglais et merci!
Cela a fonctionné parfaitement! Merci tout le monde. – yuridamata
@yuridamata Super! 'Codage heureux .' – 0p3n5ourcE