2009-07-01 7 views
4

Nous avons un client qui cherche un moyen d'importer et de classer une grande quantité de données textuelles. Ces données doivent être catégorisées et il a été suggéré que la façon la plus simple de le faire serait de regarder le champ description et d'essayer de faire correspondre les mots qui y sont contenus pour voir si une catégorie peut être dérivée pour cet enregistrement particulier.Recherche de texte de style synonyme et analyse

On a pensé que la meilleure façon de le faire serait de faire correspondre les mots avec les mots-clés détenus par chaque catégorie et si cela ne fonctionnait pas, d'utiliser une sorte de synonyme pour voir si cela pouvait être utilisé. Ainsi, par exemple, si un enregistrement particulier contenait le mot «automobile», alors une recherche de synonyme pourrait correspondre à ce mot au mot «voiture» qui serait retenu par rapport à la catégorie «véhicule».

Est-ce que quelqu'un connaît un service Web ou d'autres moyens de rechercher un dictionnaire pour trouver des synonymes pour un mot particulier? Le chef de projet a suggéré d'acheter une licence Google Enterprise Search pour cela, mais à partir de ce que je peux faire qui ne propose pas ce que ces gars-là recherchent.

Toutes les suggestions d'autres personnes pour obtenir le client ce qu'elles recherchent seraient acceptées avec reconnaissance.


Merci! Je vais regarder dans Wordnet.

Connaissez-vous d'autres types de logiciels de classification textuelle? Je vois qu'il y a une discussion sur l'utilisation d'algorithmes bayasiens pour cela, mais je ne peux pas en voir des exemples concrets.

Répondre

6

La première chose qui vient à l'esprit est Wordnet. Wordnet est une base de données de mots et de mots connexes générés par des humains, y compris des synonymes. The Wikipedia Wordnet entry répertorie plusieurs interfaces à Wordnet. Je crois que certains d'entre eux sont des services Web. Vous pouvez également rouler les vôtres. Manning and Schutze's chapter 5 (free PDF) montre des façons de le faire.

Cela dit, résolvez-vous le bon problème? Comment construisez-vous la liste des catégories? Est-ce une hiérarchie? un nuage de tags? Voir Clay Shirky's Ontology is Overrated pour une critique des catégories hiérarchiques. Je crois que les synonymes sont moins importants si vous basez votre classification sur des ensembles de mots (Naive Bayes, par exemple) plutôt que sur des mots simples.

1

Vous devriez utiliser WordNet. Vous pouvez visiter leur site Web http://wordnet.princeton.edu/ pour obtenir plus d'informations, mais il existe des bibliothèques disponibles pour les intégrer dans de nombreuses langues.

Accédez à leur outil en ligne pour en voir l'utilisation en action ici: http://wordnetweb.princeton.edu/perl/webwn. Si vous recherchez un mot, puis cliquez sur "S" à côté de chaque définition, vous obtiendrez une liste de mots liés sémantiquement à cette définition.

Je pense également que vous devriez vérifier le logiciel qui vous permettra d'effectuer le «regroupement de documents». Voici un exemple: http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview. Cela devrait vous aider à amorcer le processus de création de catégorie. Je pense que cela vous aidera à faire un long chemin vers ce que vous voulez!

0

Pour la classification des textes, vous pouvez consulter le Apache Mahout.

Questions connexes