2017-05-05 2 views
1

J'utilise Weka pour classer 2000 critiques de films IMBD. Je suis le tutroial sur: http://www.stefanoscerra.it/movie-reviews-classification-weka-data-mining/Comment est-ce que j'empêche le stemmer de boule de neige dans weka de stemming «terrible» à «aw»?

Chaque fois que je fais le stemming, le mot "horrible" provient de "aw". J'ai même essayé le LovinsStemmer inclus et obtenu le même résultat. Le tutroial dans la page mentionnée, faisant toujours la partie stemming, mais il a "affreux" mot dans la liste des attributs.

StringtoWordVector

attributes

Aussi, je suis nouveau à Weka, donc peut-être ma mise en œuvre de l'égrappoir boule de neige est incorrect. Je viens de télécharger ce fichier jar: http://weka.wikispaces.com/file/view/snowball-20051019.jar/82917267/snowball-20051019.jar

Je tournai le chemin de classe comme ceci: java -classpath « weka.jar: boule de neige 20051019.jar » weka.gui.GUIChooser

Répondre

0

Dans votre ensemble de données, la le mot "terrible" est la colonne 237. Pour l'omettre de l'opération de filtrage, dans la propriété "attributeIndices", remplacez "first-last" par 1-236,238-last. (non testé, du haut de ma tête)