0

Je travaille sur ce qui est pour moi un tout nouveau domaine de la science des données et je voudrais savoir si quelqu'un peut suggérer une littérature académique existante qui a des approches pertinentes qui répondent à mon problème. Le problème est le suivant: J'ai un ensemble de sujets nommés (environ 100 sujets). Nous avons un moteur de marquage de documents qui identifie les documents (articles de presse dans notre cas) en fonction de leur texte avec jusqu'à 5 de ces 100 sujets. Tout ceci est fait en utilisant des métriques de similarité assez rudimentaires (chaque sujet est un vecteur de texte, de même que chaque document et nous faisons une similitude entre ces vecteurs et assignons les 5 sujets les plus similaires à chaque document).Marquage de documents avec des sujets nommés, littérature pertinente? (Aussi demandé sur Quora)

Nous cherchons à améliorer la qualité de ce processus, mais la contrainte est que nous devons maintenir l'ensemble des 100 sujets nommés qui sont essentiels à d'autres fins modèles de sujet si non surveillés comme LDA sont parce que: 1. Ils ne » t Fournir des sujets nommés 2. Même si nous sommes en mesure de cartographier en quelque sorte les distributions de sujets générés par LDA à des sujets existants, ces distributions ne resteront pas constantes et varieront en fonction du corpus sous-jacent. Donc, est-ce que quelqu'un pourrait me diriger vers des documents qui ont travaillé avec le marquage de documents en utilisant un ensemble fini de sujets nommés?

Il ya 2 défis ici: 1. Étant donné un ensemble fini de sujets nommés, comment étiqueter de nouveaux documents avec eux? (Ceci est le plus grand défi plus évident) 2. Comment garder les sujets mis à jour avec l'univers changeant de document? Tout travail qui répond à l'un ou l'autre de ces défis serait d'une grande aide.

P.S. J'ai également posé cette question sur Quora si quelqu'un d'autre cherche des réponses et aimerait lire les deux messages. Je répète cette question car je pense que c'est intéressant et j'aimerais que le plus grand nombre de personnes parle de ce problème et de toutes les suggestions de littérature possibles.

Same Question on Quora

Répondre

1

Avez-vous essayé la classification ?

Entraînez un classificateur pour chaque sujet.

Marque avec les 5 classes les plus probables.

+0

Oui c'est actuellement ce que nous essayons et les résultats sont corrects. Mais le fait est que disposer de quelque chose comme 100 classificateurs (1-vs-repos) nécessite de générer manuellement une centaine de jeux de données et il est très coûteux de maintenir cela signifie qu'il faut beaucoup de mises à jour constantes de temps en temps. J'essayais donc de voir si quelqu'un avait automatisé ce processus d'une autre manière? @ Anony-Mousse – Nikhil

+0

Vous avez seulement besoin d'un ensemble d'entraînement, et vous pouvez en dériver les 100 ensembles facilement. Toute approche d'apprentissage * aura besoin de telles données de formation - elle doit apprendre les distributions de mots. Il existe des classificateurs pour les flux de données qui peuvent apprendre en continu; mais vous devrez le piloter en permanence, pour éviter la dégradation des performances * et * pour adopter plus rapidement de nouveaux sujets et de nouveaux changements. Dites que les élections présidentielles sont terminées, il y a un nouveau chef de gouvernement. Les articles contenant Clinton sont maintenant le sujet "gouvernement", et non plus "élections" et Obama n'est plus "gouvernement" mais juste "politique" régulier –

+0

Avez-vous des exemples de tels systèmes de classification de streaming de document? Une bonne publication à ce sujet si vous en connaissez un serait un bon point de départ pour moi d'élargir ma recherche. @ Anony-Mousse – Nikhil