0

J'ai un fichier csv avec 3483 lignes et 460K caractères et 65K mots, et j'essaie d'utiliser ce corpus pour former un classificateur NaiveBayes dans Scikit-learn. Le problème est lorsque j'utilise cette déclaration ci-dessous, prend trop de temps (1 heure et ne s'est pas terminé).Avec instruction open() avec Naive Bayes Classifier prend beaucoup de temps

from textblob import TextBlob 
from textblob.classifiers import NaiveBayesClassifier 
import csv 

with open('train.csv', 'r') as fp: 
    cl = NaiveBayesClassifier(fp, format="csv") 

Tout ce que je devine de faire le mal?

Merci d'avance.

+0

est votre fichier CSV formaté comme ceci: http://textblob.readthedocs.io/en/dev/classifiers.html – vendaTrout

+0

Oui @vendaTrout Ceci est un exemple du fichier: '' 'instagrama, INSTAGRAM # fb, FACEBOOK facebookio, FACEBOOK messenger facebooktime iphone, FACEBOOK WhatsApp com, WHATSSUP facebooko # fb, FACEBOOK facebookiokio # fb, FACEBOOK instagramas:, INSTAGRAM facebook https: fb, FACEBOOK facebook # fb, FACEBOOK '' ' – Flavio

+0

En supposant que chaque donnée de train et chaque étiquette sont séparées par un "\ n", pouvez-vous profiler la fonction pour un plus petit csv, ou ceci. Jetez un coup d'œil au module stdlib [profiling] (https://docs.python.org/3/library/profile.html). – vendaTrout

Répondre