J'ai un fichier csv avec 3483 lignes et 460K caractères et 65K mots, et j'essaie d'utiliser ce corpus pour former un classificateur NaiveBayes dans Scikit-learn. Le problème est lorsque j'utilise cette déclaration ci-dessous, prend trop de temps (1 heure et ne s'est pas terminé).Avec instruction open() avec Naive Bayes Classifier prend beaucoup de temps
from textblob import TextBlob
from textblob.classifiers import NaiveBayesClassifier
import csv
with open('train.csv', 'r') as fp:
cl = NaiveBayesClassifier(fp, format="csv")
Tout ce que je devine de faire le mal?
Merci d'avance.
est votre fichier CSV formaté comme ceci: http://textblob.readthedocs.io/en/dev/classifiers.html – vendaTrout
Oui @vendaTrout Ceci est un exemple du fichier: '' 'instagrama, INSTAGRAM # fb, FACEBOOK facebookio, FACEBOOK messenger facebooktime iphone, FACEBOOK WhatsApp com, WHATSSUP facebooko # fb, FACEBOOK facebookiokio # fb, FACEBOOK instagramas:, INSTAGRAM facebook https: fb, FACEBOOK facebook # fb, FACEBOOK '' ' – Flavio
En supposant que chaque donnée de train et chaque étiquette sont séparées par un "\ n", pouvez-vous profiler la fonction pour un plus petit csv, ou ceci. Jetez un coup d'œil au module stdlib [profiling] (https://docs.python.org/3/library/profile.html). – vendaTrout