0

J'ai un jeu de données de SMS qui est mal formaté et clairsemé, j'ai essayé d'utiliser la modélisation de sujet pour obtenir tous les sujets possibles dans chacun la probabilité de chaque sujet car j'ai besoin de la probabilité ainsi que le sujet pour organiser ou classer le sujet de chaque message. Ce que je considère comme une solution alternative est d'étiqueter manuellement mon ensemble de données et d'utiliser un algorithme de classification supervisé tel que Naiive Bayes. Voici un échantillon de mes messages SMS qui sont rares et contiennent du contenu Spammy c'est pourquoi je suppose que la modélisation du sujet n'a pas bien fonctionné:Extraire des sujets de messages SMS

enter image description here

Les défis auxquels je suis confronté

  1. Est cette façon de penser correcte (pour choisir la classification?) ou ceci est plus un problème non supervisé ou une modélisation de sujet?

  2. Comment préparer l'ensemble de données: Pour l'ensemble de données de formation Chaque message avec 1 catégorie comme une étiquette ou toutes les catégories possibles (1 colonne ou plus)

  3. Est-ce un problème de classification multilabel ou multiclassent

Répondre

1

Si vous connaissez les sujets, utilisez Naive Bayes supervisé. L'apprentissage non supervisé peut être utilisé pour la découverte de classe.

L'attribution de plusieurs sujets à un échantillon n'est pas un problème. Naive Bayes attribue une étiquette à un échantillon basé sur le sujet avec la probabilité la plus élevée. Naturellement, vous pouvez utiliser les probabilités x les plus élevées (éventuellement avec un seuil) pour attribuer plusieurs sujets.

+0

Donc, pour m'assurer que j'ai bien compris Si je suis en train d'étiqueter manuellement les données, je dois lui donner plus d'une étiquette pour la formation? et comme vous le dites alors je peux utiliser un hack au Naiive Bayes pour utiliser les x plus grands sujets? – user3379762

+0

J'ai joint ci-dessus une copie de mon ensemble de données pour voir à quel point il est formaté et clairsemé, je veux m'assurer que choisir de ne pas utiliser la modélisation de sujet est bon ou pas? meilleure chose – user3379762