2017-04-06 1 views
0

Je suis nouveau à tous ces Data mining, WEKA Tool etc.,Apriori dans WEKA

Dans mon projet académique, je dois faire face à des rapports de bugs. Je les ai dans mon SQL Server. J'ai pris l'attribut de résumé de bogue et appliqué la tokenisation, arrêtant la suppression de mots et les techniques de tiges.

Tous les mots terminés dans le résumé sont stockés dans la base de données; séparé. Maintenant, je dois appliquer Algorithme fréquent d'exploration de modèle et de trouver ensembles d'articles fréquents en utilisant l'outil WEKA. J'ai mon fichier arff comme ça.

@relation ItemSets 

@attribute bugid integer 
@attribute summary string 

@data 
755113,enhanc;keep;log;recommend;share 
759414,access;review;social 
763806,allow;intrus;less;provid;shrunken;sidebar;social;specifi 
767221,datacloneerror;deeper;dig;framework;jsm 
771353,document;integr;provid;secur;social 
785540,avail;determin;featur;method;provid;social;whether 
785591,chat;dock;horizont;nest;overlap;scrollbar 
787767,abus;api;implement;perform;runtim;warn;worker 

Après avoir ouvert dans Weka, sous l'onglet associé de WEKA Explorateur Je suis incapable de démarrer le processus (bouton Démarrer est désactivé) avec Apriori sélectionné.

Maintenant s'il vous plaît me suggérer comment trouver des itemsets fréquents sur l'attribut de résumé en utilisant WEKA. Je suis dans le besoin d'une aide sérieuse. L'aide sera appréciée. Merci d'avance!

Répondre

1

La raison pour laquelle Apriori n'est pas disponible avec votre fichier dans Weka est qu'Ariori n'autorise que des valeurs d'attributs nominales. Quel genre de règles essayez-vous de trouver? Pourriez-vous donner un exemple de règles que vous voulez obtenir?

values_you_want_to_be_the_antecedent_part_of_your_rule ==> values_you_want_to_be_the_consequent_part_of_your_rule 

Changer vos attributs à la valeur nominale comme celui-ci

@relation ItemSets 

@attribute bugid {755113, 759414, 763806} 
@attribute summary {'enhanc;keep;log;recommend;share', 'access;review;social', 'allow;intrus;less;provid;shrunken;sidebar;social;specifi'} 

@data 
755113,'enhanc;keep;log;recommend;share' 
759414,'access;review;social' 
763806,'allow;intrus;less;provid;shrunken;sidebar;social;specifi' 

ne vous donner des règles comme

bugid=755113 1 ==> summary=enhanc;keep;log;recommend;share 1 <conf:(1)> lift:(3) lev:(0.22) 

Si vous cherchez itemsets fréquents parmi les mots de synthèse, le bugid est non pertinent et vous pouvez le supprimer de votre fichier. Apriori est utilisé pour obtenir des règles d'association, par ex. enhanc, keep donne log avec le support X et la confiance Y. Pour trouver des itemsets fréquents, vous devez restructurer vos données de sorte que chaque mot récapitulatif soit un attribut avec les valeurs vrai/faux ou vrai/manquant, voir this question.

Essayez le fichier suivant dans Weka. Sélectionnez Associer, choisissez Apriori, double-cliquez sur le champ de saisie blanc à côté du bouton Choisir. Là, définissez outputItemSets sur true. Dans la sortie de la console, vous verrez tous les jeux d'éléments fréquents et toutes les règles autorisées avec un support suffisant.

@relation ItemSets 

@attribute enhanc {true} 
@attribute keep {true} 
@attribute log {true} 
@attribute recommend {true} 
@attribute share {true} 
@attribute access {true} 
@attribute review {true} 
@attribute social {true} 
@attribute allow {true} 
@attribute intrus {true} 
@attribute less {true} 
@attribute provid {true} 
@attribute shrunken {true} 
@attribute sidebar {true} 
@attribute specifi {true} 


@data 
true,true,true,true,true,?,?,?,?,?,?,?,?,?,? 
?,?,?,?,?,true,true,true,?,?,?,?,?,?,? 
?,?,?,?,?,?,?,true,true,true,true,true,true,true,true 

Les questionmarks ? représentent une valeur manquante.

+0

Je veux juste des ensembles d'articles fréquents pour un nombre de soutien donné et la confiance. De plus je ne peux pas aller pour les attributs nominaux car mon bugid est incrémenté automatiquement et le résumé ne peut pas provenir d'un ensemble spécifique d'attributs. Cela peut être n'importe quelle chaîne composée de n'importe quel nombre de mots. – Anurag

+0

Pourriez-vous donner un exemple de règles que vous souhaitez obtenir comme indiqué dans ma réponse éditée? – Percolator

+0

enhanc, navigateur, js comme ça je veux 2 articles ensemble trois ensemble d'articles etc. – Anurag