J'ai essayé pendant un certain temps de paralléliser ce code, en vain. Je reçois des erreurs ou rien ne fonctionne. Quelqu'un a des idées?R - paralléliser ldply et les fonctions répliquées
cal_Ops <- function(n, dtm, ratio = 0.1) {
print(n)
selVect <- sample(nrow(dtm), nrow(dtm) * ratio)
holdout <- dtm[selVect,]
training <- dtm[-selVect,]
topModel <- LDA(training, n, control = list(estimate.alpha = FALSE))
return(c(n, perplexity(topModel, holdout), as.numeric(logLik(topModel))))
}
require(plyr)
replication <- 1000
sequ <-seq(5,100,5)
perplex <- ldply(sequ, function(x, dtm) {
t(replicate(replication, cal_Ops(x, dtm))) } , dtm = DTM_to_use)
La durée de l'exécution est très longue. Merci d'avance.
J'ai essayé d'utiliser cet exemple comme une version parallèle de répliquées - mais, j'ai eu beaucoup d'erreurs: https://stackoverflow.com/a/19281611/8598566
Dans quelle machine allez-vous? Les fenêtres? Linux/Mac? – CPak
J'effectue des tests sur Windows, mais en fin de compte cela fonctionnera sur un petit cluster HPC exécutant CentOS 6.6 – Max