Gestion des nouvelles fonctionnalités dans les modèles de classification

Je fais mes premiers pas en matière de ML, en particulier avec les classificateurs pour l'analyse du sentiment de texte. Mon approche consiste à faire le jeu de données habituel des trains à 80% et le test à 20%. Avoir un modèle formé quelle est la meilleure façon de procéder dans un environnement de production lorsque de nouvelles fonctionnalités apparaissent (nouveaux mots dans les textes non présents dans l'ensemble de données initial)?Gestion des nouvelles fonctionnalités dans les modèles de classification

Source

2017-08-07 João Cunha

Dans la tâche de classification, toutes les entités doivent être vues au moment du train et les nouvelles fonctions ne peuvent pas être ajoutées ultérieurement à la phase de prédiction. Pour votre problème, vous pouvez utiliser, Stemming ou Lemmatizing. Ou quelque chose comme LDA ou Word2Vec avec un grand nombre de documents, ils formés

ce chapitre pourrait être utile: https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

Source

2017-08-07 18:23:58 Masoud

Le problème que vous décrivez est généralement connu comme « hors du vocabulaire » (MHV) mots qui apparaissent dans l'ensemble de test mais pas dans l'ensemble d'apprentissage. Une approche traditionnelle consiste à représenter chaque mot OOV avec un jeton spécial, tel que "UNKNOWN", et les avoir effectivement dans les données d'apprentissage. Cette approche est discutée plus en détail dans Section 4.3 de "Speech and Language Processing" par Jurafsky et Martin.

Une approche plus moderne consiste à utiliser Word2Vec. C'est vraiment un advanced topic que l'on trouve dans les réseaux de neurones.

Source

2017-08-07 18:41:42 stackoverflowuser2010

Gestion des nouvelles fonctionnalités dans les modèles de classification

Répondre

Questions connexes