2017-06-12 6 views
-1

Je commence une analyse de texte sur certains documents CSV. Cependant mon document csv a plusieurs phrases avec peu de mots qui ne m'intéressent pas, donc j'ai voulu créer un code python qui a analysé ce document csv et qui n'a laissé que les phrases contenant plus de 5 mots pour mon analyse, mais je ne sais pas où commencer à faire mon code et voudrais de l'aide.Traitement du texte dans le document csv

exemple:

Document d'entrée enter image description here

document de sortie enter image description here

+0

Google pour "tutoriel csv python" - vous en apprendrez plus sur le module 'csv' et comment charger le contenu du fichier csv dans votre programme. Une fois cela fait, vous serez en mesure de filtrer les lignes qui ne répondent pas aux critères que vous avez définis. – PaulMcG

+0

Peut-être commencer par mettre un exemple de vos données d'entrée et la sortie que vous souhaitez obtenir. – jberrio

Répondre

2

Cela devrait fonctionner (avec Python 3.5):

lines = [] 
finalLines = [] 
toRemove = ['a', 'in', 'the'] 

with open('export.csv') as f: 
    lines.append(f.readlines()) 

for line in lines: 
    temp = list(csv.reader(line)) 
    sentence = '' 
    for word in temp[0][0].split(): 
     if (word not in toRemove): 
      sentence = sentence + ' ' + word 
    finalLines.append(sentence.strip()) 

print(finalLines) 
1

Vous pouvez obtenir votre travail de manière efficace et avec facilité si vous utilisez des pandas (bibliothèque python largement utilisée pour manipulation de données). Voici le lien pour la documentation officielle pandas géants:

http://pandas.pydata.org/pandas-docs/stable/

Note: Pandas a intégré des fonctions de lecture de fichiers csv. Vous pouvez utiliser le paramètre 'skiprow' pour les pistes de ski que vous ne voulez pas ou appliquer regex pour filtrer le texte.