2008-09-15 5 views

Répondre

0

La meilleure façon de classer le contenu, que ce soit du texte ou multimédia est d'utiliser un taxonomy. La plupart des CMS bien connus ont pris en charge la taxonomie. Drupal a l'un des meilleurs support pour taxonomy parmi les différents CMS là-bas.

+2

Je ne pense pas que j'appellerais cela le meilleur moyen. Je l'appellerais * un moyen *. –

2

Je vous encourage à regarder les bibliothèques de classification texte fournis avec le Natural Language Toolkit . Même si vous n'êtes pas familier avec Python, je pense que vous trouverez l'API plutôt intuitive. Il y a beaucoup de bons exemples dans le NLTK Book et les personnes sur la liste de diffusion sont également très utiles.

0

La manière la plus simple de faire une catégorisation de texte est d'utiliser la représentation bag-of-words. Les mots/n-grammes de mots dans chaque document pourraient être utilisés comme caractéristiques. Avec ceci, vous pouvez représenter chaque document comme un vecteur dans l'espace métrique. Par la suite, vous pouvez appliquer clustering pour grouper des documents similaires en termes de contenu. Par exemple, vous pouvez utiliser le clustering k-means avec ces vecteurs pour regrouper des documents lexicaux similaires.

L'atelier d'exploration de texte basé sur Python, NTLK est excellent pour expérimenter des tâches de ce type rapidement (en général, python est très bon pour travailler avec du texte). Vous pourriez le trouver utile.

Questions connexes