Je suis donc en train d'étiqueter un corpus et je veux que chaque mot d'arrêt soit déclaré comme NON RELATIF. J'ai essayé de le faire en python, mais ça ne fonctionne pas btw Im juste un nouveau en python.Comment ajouter une chaîne dans un ensemble spécifique de chaînes dans un fichier
stop_words = set(stopwords.words('english'))
for line in word_tokenize(input_file):
if stop_words in line:
line = line + " NOTRELATED\n"
output_file.write(line)
entrée de l'échantillon (fichier texte):
Le
coût
de
dégâts
à
agriculture
et
infrastructures
dans
zones
dévasté
par
Typhoon
Lando
a monté en flèche
à
plus
que
P6.3
milliards
.
sortie (fichier):
Le
coût
de NOTRELATED
dégâts
à NOTRELATED
agriculture
et NOTRELATED
infrastructures
dans NOTRELATED
zones
.
. .
ce qui est la sortie que vous obtenez dans le fichier? – MaNKuR
'si stop_words en ligne:' ceci ne vérifie pas si les mots dans le stop_words sont en ligne.Vous devez parcourir votre ensemble 'stop_words' et vérifier chaque mot. – Vinny
@MaNKuR son blanc. –