Comment trouver automatiquement les catégories de texte en fonction du contenu?Comment faites-vous pour classer en fonction du contenu du texte?
Répondre
Il y a un bon document écrit à ce sujet: http://www.cs.utexas.edu/users/hyukcho/classificationAlgorithm.html
Le lien est maintenant mort :( – Tessmore
La meilleure façon de classer le contenu, que ce soit du texte ou multimédia est d'utiliser un taxonomy. La plupart des CMS bien connus ont pris en charge la taxonomie. Drupal a l'un des meilleurs support pour taxonomy parmi les différents CMS là-bas.
Je ne pense pas que j'appellerais cela le meilleur moyen. Je l'appellerais * un moyen *. –
- Lire Data Mining: Practical Machine Learning Tools and Techniques - Ian H. Witten, Eibe Frank
- Utilisez Weka ou Orange
Je vous encourage à regarder les bibliothèques de classification texte fournis avec le Natural Language Toolkit . Même si vous n'êtes pas familier avec Python, je pense que vous trouverez l'API plutôt intuitive. Il y a beaucoup de bons exemples dans le NLTK Book et les personnes sur la liste de diffusion sont également très utiles.
La manière la plus simple de faire une catégorisation de texte est d'utiliser la représentation bag-of-words. Les mots/n-grammes de mots dans chaque document pourraient être utilisés comme caractéristiques. Avec ceci, vous pouvez représenter chaque document comme un vecteur dans l'espace métrique. Par la suite, vous pouvez appliquer clustering pour grouper des documents similaires en termes de contenu. Par exemple, vous pouvez utiliser le clustering k-means avec ces vecteurs pour regrouper des documents lexicaux similaires.
L'atelier d'exploration de texte basé sur Python, NTLK est excellent pour expérimenter des tâches de ce type rapidement (en général, python est très bon pour travailler avec du texte). Vous pourriez le trouver utile.
- 1. Changer le WHERE pour un select sur une seule ligne en fonction du contenu du champ
- 2. Filtrer les fichiers affichés dans OpenFileDialog en fonction du contenu?
- 3. Conversion du contenu d'une zone de texte en un tableau
- 4. Avec WPF, comment faire pour réduire un TextBlock en fonction du contenu de son TextBlock enfant?
- 5. Comment filtrer/trier/classer les noeuds du modèle objet?
- 6. Comment remplacer du texte en utilisant JavaScript?
- 7. CSS Hyperlien pour du texte
- 8. comment convertir du texte en rtf, pour envoyer un email?
- 9. Copie du contenu du dossier en utilisant VBScript
- 10. Conversion du texte en html
- 11. Comment faire écho du texte en majuscules?
- 12. Comment redimensionner du texte en svg dynamiquement?
- 13. Comment aligner du texte dans un élément de texte GnomeCanvas
- 14. Fonction MySQL pour classer les chaînes par ordre alphabétique
- 15. obtenir du contenu à tooltip d'url en javascript
- 16. Renommage contenu du fichier texte utilisant des expressions régulières
- 17. Protection du contenu statique en ligne
- 18. Plan du site pour le contenu dynamique?
- 19. Conversion du texte en nombre
- 20. Obtention du contenu d'iframe
- 21. Comment puis-je coller la version en texte brut du contenu du presse-papiers dans un jQuery lwRTE?
- 22. Contenu du fichier de vidage (.ds) dans un fichier texte
- 23. Tri du contenu d'un XPathNodeIterator en C#
- 24. Modification du bouton AcceptButton en fonction du contrôle actif
- 25. Comment puis-je modifier les éléments et les modèles de contenu en fonction du type d'objet?
- 26. Comment classer les types de contenu sur la page "Créer un contenu" de Drupal (/ node/add)
- 27. Échange du contenu DIV à partir du même lien textuel
- 28. Comment récupérer le texte du presse-papiers en fiducie partielle
- 29. En-tête MIME - Disposition du contenu
- 30. Aligner le contenu du bouton
La publication originale n'a pas précisé si l'auteur avait déjà des catégories, et voulait classer, ou s'ils ne l'avaient pas, et avait besoin de les découvrir. –