2008-09-23 8 views
13

J'ai besoin de votre aide pour déterminer la meilleure approche pour analyser des phrases spécifiques à l'industrie (c'est-à-dire des critiques de films) pour «positif» vs «négatif». J'ai déjà vu des librairies comme OpenNLP, mais c'est trop bas - cela me donne juste la composition de base de la phrase; ce dont j'ai besoin est une structure de plus haut niveau: - j'espère avec des listes de mots - j'espère pouvoir m'entraîner sur mon ensemble de donnéesPNL: phrase «positive» vs «négative» qualitativement

Merci!

Répondre

23

Ce que vous cherchez est communément appelé Sentiment Analysis. Généralement, l'analyse des sentiments n'est pas capable de gérer des subtilités délicates, comme le sarcasme ou l'ironie, mais elle se comporte plutôt bien si vous y mettez un grand nombre de données.

L'analyse des sentiments nécessite généralement un peu de pré-traitement. Au moins une tokenisation, une détection de limite de phrase et un marquage de partie de discours. Parfois, l'analyse syntaxique peut être importante. Le faire correctement est une branche entière de la recherche en linguistique computationnelle, et je ne vous conseillerais pas de trouver votre propre solution à moins que vous ne preniez votre temps pour étudier le domaine en premier. OpenNLP a quelques outils pour aider l'analyse des sentiments, mais si vous voulez quelque chose de plus sérieux, vous devriez regarder dans la boîte à outils LingPipe. Il a une fonctionnalité SA intégrée et une belle tutorial. Et vous pouvez l'éduquer sur votre propre ensemble de données, mais ne pensez pas que c'est totalement trivial :-). Googling pour le terme sera probablement aussi vous donner quelques ressources pour travailler avec

Si vous avez une question plus spécifique, demandez simplement, je regarde de près le nlp-tag ;-)

+0

Incroyablement utile - merci beaucoup, Aleksandar! –

6

Certaines approches de l'analyse des sentiments utilisent des stratégies populaires sur d'autres tâches de classification de texte. Le plus commun étant de transformer votre critique de film en un vecteur de mots, et l'alimenter dans un algorithme de classificateur comme données d'entraînement. Les paquetages d'exploration de données les plus populaires peuvent vous aider ici. Vous pouvez jeter un oeil à ce tutorial on sentiment classification illustrant comment faire une expérience en utilisant l'open source RapidMiner toolkit.

Incidemment, il existe un good data set mis à disposition à des fins de recherche liées à la détection d'avis sur les critiques de films. Il est basé sur les avis des utilisateurs IMDB, et vous pouvez vérifier de nombreux related research work sur la zone et comment ils utilisent l'ensemble de données. Il vaut la peine de garder à l'esprit que l'efficacité de ces méthodes ne peut être jugée que d'un point de vue statistique, de sorte que vous pouvez pratiquement supposer qu'il y aura des erreurs de classification et des cas où l'opinion est difficile à détecter. Comme déjà remarqué dans ce fil, la détection de choses comme l'ironie et le sarcasme peut être très difficile en effet.

Questions connexes