2013-04-02 3 views

Répondre

3

La taille de vos données ne va pas être le facteur limitant, c'est la complexité du modèle que vous allez mettre à jour. Si c'est un simple modèle naïf de Bayes, c'est assez facile à mettre en œuvre. Si vous voulez quelque chose de plus sophistiqué, par exemple réseau multi-connecté, la complexité du modèle déterminera si vous pouvez faire une inférence exacte ou si cela nécessitera des compromis, par ex. algorithmes approximatifs. Kevin Murphy a récemment mis à jour une comparaison de logiciels pour l'inférence bayésienne au http://www.cs.ubc.ca/~murphyk/Software/bnsoft.html. Un paquet open source que j'explore est libDAI (http://cs.ru.nl/~jorism/libDAI/) qui est en C++ mais je suppose qu'il est appelable de Java. Il supporte plusieurs méthodes d'inférence, y compris la propagation de croyances en boucle qui semble être un très bon algorithme d'approximation.

1

Peut-être que WEKA correspond à votre facture? http://www.cs.waikato.ac.nz/ml/weka/ Il répond définitivement aux exigences 1, 2 et 4. 3 devrait être réalisable avec quelque chose comme une implémentation personnalisée de weka.core.Instances si le défaut ne fournit pas une sorte de "streaming" des données, donc pas tout ce dont il a besoin de résider dans la mémoire à la fois - ne l'ai pas utilisé depuis un moment, donc je ne sais pas avec certitude.

+0

Merci. Oui, peut-être avec une implémentation personnalisée de weka.core.Instances Weka fera l'affaire. Le problème majeur pour Weka est la taille de l'ensemble de données. La dernière interface graphique de Weka Explorer n'a pas fonctionné avec des données de 10 Go car elle essaie de tout charger en mémoire. –

Questions connexes