2017-03-08 2 views
1

J'ai essayé différentes façons de déterminer la fréquence du sujet dans LDA (en R) et j'ai trébuché sur le paquet très utile ldatuning mais je ne peux pas vraiment comprendre le paramètre de contrôle et en particulier la valeur d'exemple pour graine.Que fait 'seed' dans 'ldatuning' pour déterminer la fréquence du sujet LDA (dans R)?

Voici l'exemple de code à partir du site:

library("topicmodels") 
data("AssociatedPress", package="topicmodels") 
dtm <- AssociatedPress[1:10, ] 

result <- FindTopicsNumber(
    dtm, 
    topics = seq(from = 2, to = 15, by = 1), 
    metrics = c("Griffiths2004", "CaoJuan2009", "Arun2010", "Deveaud2014"), 
    method = "Gibbs", 
    control = list(seed = 77), 
    mc.cores = 2L, 
    verbose = TRUE 
) 

J'ai joué avec les paramètres un peu et a remarqué que les changements de la valeur pour les semences modifier les graphiques de sortie tout à fait significative. Quelqu'un peut-il expliquer ce que le 77 représente dans ce cas et comment la valeur de la graine devrait être sélectionnée?

En outre, je ne pouvais pas trouver d'autres options pour ce qui entrer pour le contrôle et quel effet cela a sur le résultat. Si quelqu'un peut donner des conseils ici, ce serait formidable.

Répondre

0

graine: Objet de la classe "integer"; utilisé pour définir la graine dans le code externe pour l'estimation de VEM et pour appeler set.seed pour l'échantillonnage de Gibbs. Pour l'échantillonnage de Gibbs, il peut également être défini sur NA (par défaut) pour éviter de modifier la graine du générateur de nombres aléatoires dans l'appel d'ajustement de modèle.