J'ai des milliers de documents avec des informations d'étiquette associées. Cependant j'ai aussi beaucoup de documents sans étiquettes.suggestion d'étiquette supervisée pour les documents
Je veux former un modèle sur les documents avec des balises, puis appliquer le classificateur formé aux documents non balisés; le classificateur proposera alors les balises les plus appropriées pour chaque document sans tag.
Je l'ai fait beaucoup de recherche et il ne semble pas être une mise en œuvre SUPERVISÉ pour documenter la classification de l'étiquette.
Je sais NLTK, gensim, word2vec et d'autres bibliothèques seront utiles à ce problème.
Je vais coder le projet en Python.
Toute aide serait grandement appréciée.
marquage de documents est supervisée pas particulièrement rare, mais il est généralement appelé « étiquetage multiclassent ». Pour de nombreuses méthodes, c'est la même chose que l'étiquetage unique, mais vous choisissez les meilleurs résultats. Voir ici un exemple de scikit sur des données inventées: http://scikit-learn.org/stable/auto_examples/plot_multilabel.html – polm23