2012-04-23 8 views
1

Je suis sur le point de démarrer un projet où mon objectif final est de classer les textes courts en classes: "peut-être intéressé à visiter le lieu X": "pas intéressé ou neutre". Le lieu est décrit par un ensemble de mots-clés (par exemple, des repas ou des types de miles comme "nourriture chinoise"). Donc, idéalement, j'ai besoin d'une approche pour modéliser le désir de l'utilisateur basé sur l'analyse de texte court - et ensuite classer en fonction d'un score de désir ou d'une probabilité de désir - y a-t-il un état de l'art dans ce domaine? MerciClassification courte du texte

Répondre

5

Ce problème est exactement le même que l'analyse des sentiments de textes. Mais, au lieu de la classification binaire traditionnelle, vous semblez avoir une opinion «neutre». L'état de l'art dans l'analyse des sentiments dépend fortement du domaine. Les techniques qui ont excellé dans la classification des films ne fonctionnent pas aussi bien sur les produits commerciaux, par exemple.

De plus, même la sélection de fonction dépend fortement du domaine. Par exemple, les unigrammes fonctionnent bien pour la classification des critiques de films, mais une combinaison d'unigrammes et de bigrammes donne de meilleurs résultats pour la classification des textes de twitter.

Mon meilleur conseil est de "jouer" avec différentes fonctionnalités. Puisque vous regardez des textes courts, twitter est probablement un bon exemple de motivation. Je commencerais par unigrams et bigrams comme mes caractéristiques. L'algorithme exact n'est pas très important. SVM fonctionne généralement très bien avec un réglage correct des paramètres. Utilisez une petite quantité de données bloquées pour régler ces paramètres avant d'expérimenter sur des jeux de données plus volumineux.

La partie la plus intéressante de ce problème est le classement! Un « score de pureté » a été récemment utilisé à cet effet dans les documents suivants (et je dirais qu'ils sont assez état de l'art):

  • sentiment summarization: l'évaluation et l'apprentissage des préférences utilisateur. Lerman, Blair-Goldensohn et McDonald. EACL. 2009.
  • La viabilité des lexiques de polarité dérivé de la toile. Velikovich, Blair-Goldensohn, Hannan et McDonald. NAACL. 2010.