2017-10-12 6 views
-1

Je cherche un algorithme pour trouver le plus probable 2-tuple étant donné le premier élément du tuple.Algorithme AI bon marché pour la construction des tuples les plus probables

Le plus probable est lorsque les deux éléments ont déjà été vus ensemble plus souvent dans un lot.

Disons que vous avez un flux infini de lots:

BATCH 1: 

border 
color 
border-radius 
dispaly 


BATCH 2: 

width 
height 
left 
top 
color 
border 


BATCH 3: 

border 
border-radius 
width 
height 


BATCH 4: 

[ and so on ... ] 

sont batchs une diffusion en continu en continu et sont sans fin. L'algorithme doit s'entraîner pour savoir quels sont les deux éléments d'un lot les plus susceptibles d'apparaître ensemble. Par exemple, quand un nouveau lot arrive, je demande à l'algorithme "S'il vous plaît diviser le lot en un ensemble de 2-tuples par leur probabilité d'être dans un lot."

Disons que le numéro de lot 4 intervient comme suit

BATCH 4: 

border 
width 
border-radius 
height 

L'algorithme serait divisé le lot en deux 2-tuples comme ceci:

[border, border-radius] 
[width, height] 

Parce que ces éléments sont historiquement plus susceptibles de être dans un lot ensemble.

L'algorithme ne doit pas être exact mais plutôt bon marché et fonctionner sur des probabilités.

+0

Est-ce juste un exemple ou est-ce un peu la taille de vos données réelles? Ou pour être plus clair: taille de lot avg/max? nombre d'éléments différents? Les lots plus anciens sont-ils moins pertinents que les lots plus récents? – sascha

+0

Quels algorithmes avez-vous étudiés et pris en compte? Quels sont les compromis pour votre application particulière? Il y a beaucoup de littérature sur les N-grammes, et N = 2 est un exemple d'introduction (relativement) simple. – Prune

+1

Jetez un coup d'œil sur les itemsets fréquents dans [association rule mining] (https://en.wikipedia.org/wiki/Association_rule_learning). Les algorithmes décrits sur la page wiki (Apriori, croissance FP, ..) pourraient être ce que vous cherchez. – SND

Répondre

1

Cela s'appelle des 2-itemsets fréquents.

Mais avec la restriction de l'uplet, il suffit simplement de compter.