Comment utiliser les fonctions de NLTK pour le persan?NLTK pour persan
Par exemple: 'concordance'. Quand j'utilise la 'concordance', la réponse est 'ne correspond pas', cependant il y a le paramètre de concordance dans mon texte.
l'entrée est très simple .it contient de "bonjour سلام". Lorsque le paramètre de 'concordance' est 'bonjour' la réponse est correcte, mais, si c'est 'سلام' la réponse est 'ne correspond pas'. La sortie pour moi est 'Affichage de 1 sur 1'.
import nltk
from urllib import urlopen
url = "file:///home/.../1.html"
raw = urlopen(url).read()
raw = nltk.clean_html(raw)
tokens = nltk.word_tokenize(raw)
tokens = tokens[:12]
text = nltk.Text(tokens)
print text.concordance('سلام')
Pouvez-vous donner un exemple de code minimal et un exemple d'entrée minimal de ce que vous avez essayé, et que vous vous attendiez à arriver? – jogojapan