0

J'essaie de classer des parties de texte en catégories. J'ai 9 catégories, mais les phrases que j'ai peuvent être classées dans plusieurs catégories. Mon objectif est de prendre un morceau de texte et de trouver l'industrie de chaque phrase, un problème commun que j'ai est que mon ensemble d'entraînement n'a pas une catégorie "Porn" et des phrases avec du matériel pornographique classé "Financier".Classification de texte en plusieurs classes: nouvelle classe si l'entrée ne correspond pas à une classe

Je veux que mon classificateur vérifie si la phrase peut être catégorisée en une classe et si ce n'est pas simplement imprimer qui ne peut pas classer ce texte. J'utilise Tf-idf vectorizer pour transformer les phrases et ensuite je nourris les données à un LinearSVC.

Quelqu'un peut-il m'aider avec ce problème? Ou quelqu'un peut-il me fournir du matériel utile?

Répondre

0

Tout d'abord, le problème que vous avez avec les documents "Porn" classés comme "financiers" ne semble pas être entièrement lié à l'autre question ici. Je vais répondre à la question principale pour le moment.

Le paramètre est que vous avez des données pour 9 catégories, mais l'univers réel du document est plus grand. Le problème consiste à déterminer que vous n'avez jamais vu les goûts d'un point de données particulier auparavant. Cela semble être plus une détection de valeurs aberrantes ou d'anomalies que la classification.

Vous aurez à faire quelques lectures d'arrière-plan pour aller plus loin, mais voici quelques points pour vous aider à démarrer. Une stratégie à utiliser est de déterminer si le nouveau document est "similaire" aux autres documents que vous avez dans votre collection. L'idée étant qu'une valeur aberrante n'est pas susceptible d'être similaire aux documents "normaux". Pour ce faire, vous aurez besoin d'une mesure robuste de la similarité des documents.

Esquisse d'une méthode potentielle, vous pouvez utiliser:

  • Trouver une bonne représentation des documents, disent vecteurs tf-idf, ou mieux.
  • Reportez-vous aux documents de votre collection. Pour chaque document, le score «goodness» est le score de similarité le plus élevé avec tous les autres documents de la collection. (Alternativement, vous pouvez utiliser k'th similarité la plus élevée, pour une certaine tolérance aux pannes.)
  • Étant donné le nouveau document, mesurez son score de bonté d'une manière similaire.
  • Comment le nouveau document se compare-t-il aux autres documents en termes de score de qualité? Un score de bonté très faible est un signe d'une valeur aberrante.

Pour en savoir plus:

  • Survey de détection des anomalies
  • LSA, qui est une technique de représentation de texte et de calcul de similarité.