Avec instruction open() avec Naive Bayes Classifier prend beaucoup de temps

J'ai un fichier csv avec 3483 lignes et 460K caractères et 65K mots, et j'essaie d'utiliser ce corpus pour former un classificateur NaiveBayes dans Scikit-learn. Le problème est lorsque j'utilise cette déclaration ci-dessous, prend trop de temps (1 heure et ne s'est pas terminé).Avec instruction open() avec Naive Bayes Classifier prend beaucoup de temps

from textblob import TextBlob 
from textblob.classifiers import NaiveBayesClassifier 
import csv 

with open('train.csv', 'r') as fp: 
    cl = NaiveBayesClassifier(fp, format="csv")

Tout ce que je devine de faire le mal?

Merci d'avance.

Source

2017-02-12 Flavio

est votre fichier CSV formaté comme ceci: http://textblob.readthedocs.io/en/dev/classifiers.html – vendaTrout

Oui @vendaTrout Ceci est un exemple du fichier: '' 'instagrama, INSTAGRAM # fb, FACEBOOK facebookio, FACEBOOK messenger facebooktime iphone, FACEBOOK WhatsApp com, WHATSSUP facebooko # fb, FACEBOOK facebookiokio # fb, FACEBOOK instagramas:, INSTAGRAM facebook https: fb, FACEBOOK facebook # fb, FACEBOOK '' ' – Flavio

En supposant que chaque donnée de train et chaque étiquette sont séparées par un "\ n", pouvez-vous profiler la fonction pour un plus petit csv, ou ceci. Jetez un coup d'œil au module stdlib [profiling] (https://docs.python.org/3/library/profile.html). – vendaTrout

Il y a un problème avec cette bibliothèque.

Il est documenté dans les liens suivants:

https://github.com/sloria/TextBlob/pull/136

https://github.com/sloria/TextBlob/issues/77

petite histoire: La bibliothèque ne traite pas bien avec de grands ensembles de données.

Source

2017-02-15 11:50:13 Flavio

Avec instruction open() avec Naive Bayes Classifier prend beaucoup de temps

Répondre

Questions connexes