2016-03-02 1 views
0

J'ai un jeu de données (fichier CSV) pour trouver des itemsets fréquents en utilisant l'algorithme Apriori.Comment rechercher des éléments fréquents, quel que soit le nom de l'attribut?

col1, col2, col3 
bread, butter,? 
coke, bread, butter 

J'utilise WEKA à cette fin. Le ouput est dans le format suivant:

... 
Large Itemsets L(2): 
col1=bread col2= butter 1 
col1=coke col2= bread 1 
col1=coke col3= butter 1 
col2= bread col3= butter 1 
... 

Mais la sortie que je suis est veut:

bread, butter 2 

Fondamentalement, la sortie ci-dessus est indépendant du col qu'ils appartiennent. Comment puis-je obtenir ce type de sortie?

Répondre

0

Formatez vos données différemment.

Weka attend colonnes pour être les mêmes produits, et la valeur à t/f (pour vrai, faux). Ensuite, vous obtenez itemset du type lait = t -> beurre = t.

Voir les exemples .arff inclus avec Weka. Je pense avoir vu un exemple ELKI utilisant votre format d'entrée.