Texte Pré-traitement: tout le texte en minuscules, en tokenizer unigrammes, supprimer tous les mots d'arrêt, utilisez égrappoir pour normaliser un jeton à son mot de base.
Il y a 2 approches auxquelles je peux penser pour classer les documents, par exemple le texte libre dont vous avez parlé. Chaque texte libre est un document:
1) Classification supervisée Prenez un peu de temps et choisissez au hasard quelques échantillons de documents et attribuez-leur une catégorie. Faites cela jusqu'à ce que vous ayez plusieurs documents par catégorie et que toutes les catégories que vous voulez prévoir soient couvertes.
Ensuite, créez une matrice Tf-Idf à partir de ce texte. Sélectionnez les principales caractéristiques de K (accordez la valeur de K pour obtenir les meilleurs résultats). Alternativement, vous pouvez utiliser SVD pour réduire le nombre de fonctionnalités en combinant des fonctionnalités corrélées en une seule. S'il vous plaît garder à l'esprit que vous pouvez utiliser d'autres fonctionnalités comme le département de la direction du service à la clientèle et de nombreux autres aussi comme prédicteurs. Maintenant, formez un modèle d'apprentissage automatique et testez-le.
2) Apprentissage non supervisé: Si vous connaissez le nombre de catégories que vous avez dans votre variable de sortie, vous pouvez utiliser ce nombre comme le nombre de clusters que vous voulez créer. Utilisez le vecteur Tf-Idf de la technique ci-dessus et créez k clusters. Choisissez au hasard quelques documents de chaque groupe et décidez de la catégorie à laquelle les documents appartiennent. Supposons que vous ayez choisi 5 documents et remarqué qu'ils appartiennent à la catégorie "Wanting Refund".Étiquetez tous les documents de cette grappe dans "Wanting Refund". Faites ceci pour tous les groupes restants.
L'avantage de l'apprentissage non supervisé est qu'il vous évite d'avoir à effectuer une pré-classification et une préparation des données, mais attention à l'apprentissage non supervisé. La précision peut ne pas être aussi bonne que l'apprentissage supervisé.
Les 2 méthodes expliquées sont un aperçu de ce qui peut être fait. Maintenant que vous avez une idée, lisez plus sur les sujets et utilisez un outil comme rapidminer pour accomplir votre tâche beaucoup plus rapidement.
Wow. C'est ... puissant. Merci beaucoup. Si quelqu'un est intéressé à voir cela implémenté dans R voir ici: http: //stackoverflow.com/questions/14875493/lda-with-topicmodels-how-can-i-see-which-topics-different-documents-belong-to – meb33