programmation parallèle pour une fonction prenant deux arguments d'une liste de trames de données en utilisant R

J'ai une fonction appelée DTW dans un ensemble de mesures de similarité. Il prend deux matrices ou une trame de données comme arguments et renvoie la distance de distorsion temporelle dynamique. Ces trames de données sont les longitudes et les latitudes de la trajectoire. Mon programme ressemble à ceci et toutes les trames de données comme DF1, DF2, DF3, etc. sont disponibles:programmation parallèle pour une fonction prenant deux arguments d'une liste de trames de données en utilisant R

distance <- function(arg1,arg2) { 
    DTW(arg1, arg2) 
} 
for(i in 1:length(LIST)){ 
    for(j in 1:length(LIST)){ 
    a <- get(paste0("df",i)) 
    b <- get(paste0("df",j)) 
    ddist[i,j] <- distance(a,b) 
    print(ddist) 
    } 
}

Je fais une ddist de matrice dans laquelle toutes les valeurs sont insérées retournées par la fonction de la distance. Le programme fonctionne bien. Je veux le faire rapidement en utilisant la programmation parallèle comme la fonction parapply ou parlapply.

Source

2017-07-23 umair

Si vous voulez faire cela en parallèle, vous devez le redessiner selon les règles de l'art. Votre utilisation de get est un non-go et ne fonctionnera pas bien en parallèle. Ces data.frames devraient être ensemble dans une liste. Quand vous aurez résolu cela, je vous encouragerai à étudier les vignettes du paquet foreach. – Roland

Ok Roland. Je vais l'étudier. Merci. – umair

@Roland Que diriez-vous de parLappy pr parApply pour la programmation parallèle? – umair

Voici une méthode simple pour vous donner une idée de la façon de le rendre parallèle

k<-length(LIST) 
ddist<-matrix(0,k,k) 
library("doParallel") 
cl<-makeCluster(4,outfile='') 
registerDoParallel(cl) 
for(i in 1:k) { 
    a <- get(paste0("df",i)) 
    ddist[i,]=foreach(j = 1:k , .combine='cbind' ,.export=paste0("df",1:k)) %dopar% { 
    b <- get(paste0("df",j)) 
    distance(a,b) 
    } 
} 

stopCluster(cl)

Cela dit, les choses à évaluer

si la fonction de la distance prend plus de 2 secondes, alors utilisez uniquement en parallèle
df1, df2 etc peut-être pas une bonne idée, stocker chaque dataframe comme df [[1]], df [[2]]. Mieux que d'utiliser la fonction get
si la longueur (k) est très grande, alors le temps nécessaire pour de transférer les fichiers exportés df1, df2 etc est assez long, donc essayez d'atteindre le point de performance avec diverses itérations
vous pouvez voir l'option de data.table où il y a inplace modifier, utiliser ce lieu du ddist comme il peut être plus rapide
Si ce code est appelé dans une fonction, alors vous pourriez aussi avoir besoin de exporter la fonction ddist, comme .export=c(ddist,paste0("df",1:k))
Modifier le "4" dans makeCluster pour choisir les noyaux nt, comme un thumbrule, gardez-le comme detectCores()-1

Source

2017-07-26 06:22:25 niths4u

programmation parallèle pour une fonction prenant deux arguments d'une liste de trames de données en utilisant R

Répondre

Questions connexes