0

Je fais mes premiers pas en matière de ML, en particulier avec les classificateurs pour l'analyse du sentiment de texte. Mon approche consiste à faire le jeu de données habituel des trains à 80% et le test à 20%. Avoir un modèle formé quelle est la meilleure façon de procéder dans un environnement de production lorsque de nouvelles fonctionnalités apparaissent (nouveaux mots dans les textes non présents dans l'ensemble de données initial)?Gestion des nouvelles fonctionnalités dans les modèles de classification

Répondre

0

Dans la tâche de classification, toutes les entités doivent être vues au moment du train et les nouvelles fonctions ne peuvent pas être ajoutées ultérieurement à la phase de prédiction. Pour votre problème, vous pouvez utiliser, Stemming ou Lemmatizing. Ou quelque chose comme LDA ou Word2Vec avec un grand nombre de documents, ils formés

ce chapitre pourrait être utile: https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

0

Le problème que vous décrivez est généralement connu comme « hors du vocabulaire » (MHV) mots qui apparaissent dans l'ensemble de test mais pas dans l'ensemble d'apprentissage. Une approche traditionnelle consiste à représenter chaque mot OOV avec un jeton spécial, tel que "UNKNOWN", et les avoir effectivement dans les données d'apprentissage. Cette approche est discutée plus en détail dans Section 4.3 de "Speech and Language Processing" par Jurafsky et Martin.

Une approche plus moderne consiste à utiliser Word2Vec. C'est vraiment un advanced topic que l'on trouve dans les réseaux de neurones.