comment prendre l'entrée en tant que fichier texte dans tokenize.regexp python de NLTK

2017-08-11 1 views 0 likes

fondamentalement j'ai le fichier texte comme entrée à tokenize.regexp de NLTK. comment fichier texte d'entrée au-dessous de code:comment prendre l'entrée en tant que fichier texte dans tokenize.regexp python de NLTK

'de RegexpTokenizer import nltk.tokenize

tokenizer = RegexpTokenizer (r' \ w + ')

brut = doc_a.lower() #instead de' doc_a «Je veux que mon fichier texte en entrée

jetons = tokenizer.tokenize (cru)`

2017-08-11 aneeket

Répondre

Avant cette ligne:

raw = doc_a.lower() #instead of 'doc_a' i want my text file as input

Code

ajouter pour lire doc_a de votre fichier, comme ceci:

with open(r'path_to\my_text_file.txt', 'r') as input: 
    doc_a = input.read()

puis continuer avec et tokenizing en minuscules.

2017-08-11 15:32:04 BoarGules