comment classer txt documents dans d'autres catégories txt par apprentissage supervisé

-1

J'ai sur des milliers de documents de txt stockés dans 8 différents dossiers de fichiers qui sont marqués avec les catégories de sujet (en fait, ils sont de classe 1,2,3 ...). Et j'ai encore 80 documents txt qui n'ont pas encore de catégories. J'essaie de trouver la meilleure façon de les catégoriser.comment classer txt documents dans d'autres catégories txt par apprentissage supervisé

J'ai déjà terminé la segmentation du texte et supprimé les lettres anglaises (car ils sont des textes chinois) .Quel dois-je faire?

Je peux obtenir les mots avec les plus hautes valeurs de TF-IDF mais je ne sais pas comment faire ensuite. Il semble que je devrais transformer ces textes en vecteurs et former un classificateur, mais je ne sais pas comment.

Source

2016-11-07 Andy Zhao

Envisagez de jeter un oeil à http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html – DJanssens

Au lieu de mettre en œuvre vos propres modèles de sac de mots, vous pouvez utiliser par exemple. doc2vec de gensim. Il offre d'excellentes performances qui seront difficiles à égaler avec votre propre implémentation. Vous pouvez choisir entre softmax hiérarchique ou échantillonnage négatif.

Source

2016-11-07 12:48:04

comment classer txt documents dans d'autres catégories txt par apprentissage supervisé

Répondre

Questions connexes