-1

J'ai sur des milliers de documents de txt stockés dans 8 différents dossiers de fichiers qui sont marqués avec les catégories de sujet (en fait, ils sont de classe 1,2,3 ...). Et j'ai encore 80 documents txt qui n'ont pas encore de catégories. J'essaie de trouver la meilleure façon de les catégoriser.comment classer txt documents dans d'autres catégories txt par apprentissage supervisé

J'ai déjà terminé la segmentation du texte et supprimé les lettres anglaises (car ils sont des textes chinois) .Quel dois-je faire?

Je peux obtenir les mots avec les plus hautes valeurs de TF-IDF mais je ne sais pas comment faire ensuite. Il semble que je devrais transformer ces textes en vecteurs et former un classificateur, mais je ne sais pas comment.

+1

Envisagez de jeter un oeil à http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html – DJanssens

Répondre

0

Au lieu de mettre en œuvre vos propres modèles de sac de mots, vous pouvez utiliser par exemple. doc2vec de gensim. Il offre d'excellentes performances qui seront difficiles à égaler avec votre propre implémentation. Vous pouvez choisir entre softmax hiérarchique ou échantillonnage négatif.