2017-10-19 12 views
1

Je traite actuellement les structures de données suivantes:valeurs de correspondance entre les trames de données en fonction des dates qui se chevauchent

Attributs df:

ID Begin_A  End_A  Interval       Value 
1 5 1990-03-01 2017-03-10 1990-03-01 UTC--2017-03-10 UTC Cat1 
2 10 1993-12-01 2017-12-02 1993-12-01 UTC--2017-12-02 UTC Cat2 
3 5 1991-03-01 2017-03-03 1991-03-01 UTC--2017-03-03 UTC Cat3 
4 10 1995-12-05 2017-12-10 1995-12-05 UTC--2017-12-10 UTC Cat4 

réservations df:

ID Begin_A  End_A      Interval 
1 5 2017-03-03 2017-03-05 2017-03-03 UTC--2017-03-05 UTC 
2 6 2017-05-03 2017-05-05 2017-05-03 UTC--2017-05-05 UTC 
3 8 2017-03-03 2017-03-05 2017-03-03 UTC--2017-03-05 UTC 
4 10 2017-12-05 2017-12-06 2017-12-05 UTC--2017-12-06 UTC 

Comme nous l'avons mentionné dans le poste suivant: Matching values conditioned on overlapping Intervals and ID, j'ai l'intention de faire la restructuration des données suivantes: Prendre l'ID des réservations, filtrer toutes les lignes de la trame de données d'attributs où les attributs ID m atches l'ID de réservation. Vérifiez quelles lignes avec l'ID d'attribut correspondant ont également des intervalles de temps qui se chevauchent (int_overlaps de lubridate). Ensuite, prenez la valeur respective de la colonne Valeur et imprimez-les chacune dans la colonne Attribute_value.

Le résultat escompté ressemblerait à ceci:

ID Begin_A  End_A  Interval      Attribute_value 
5 2017-03-03 2017-03-05 2017-03-03 UTC--2017-03-05 UTC Cat1,Cat3 
6 2017-05-03 2017-05-05 2017-05-03 UTC--2017-05-05 UTC NA 
8 2017-03-03 2017-03-05 2017-03-03 UTC--2017-03-05 UTC NA 
10 2017-12-05 2017-12-06 2017-12-05 UTC--2017-12-06 UTC Cat4 

JCT déjà fourni une réponse partielle à cette question ici :(https://stackoverflow.com/a/46819541/8259308). Cette solution ne permet pas de longues périodes entre Begin_A et End_A dans la trame de données d'attributs, car un vecteur avec des dates individuelles est créé avec cette commande:

complete(Date = full_seq(Date, period = 1), ID) %>% 

Depuis mon jeu de données d'origine a une très grande quantité d'observations avec beaucoup de temps cadres dans la trame de données Attributs, R n'est pas capable de traiter ces grandes quantités d'observations. Mon idée était soit de modifier la ligne mentionnée ci-dessus pour réduire les sauts de dates en mois (ce qui diminuerait aussi la précision) ou d'essayer une nouvelle approche. Le code suivant produit les trames de données présentées ci-dessus:

library(lubridate) 
library(tidyverse) 
# Attributes data frame: 
date1 <- as.Date(c('1990-3-1','1993-12-1','1991-3-1','1995-12-5')) 
date2 <- as.Date(c('2017-3-10','2017-12-2','2017-3-3','2017-12-10')) 
attributes <- data.frame(matrix(NA,nrow=4, ncol = 5)) 
names(attributes) <- c("ID","Begin_A", "End_A", "Interval", "Value") 
attributes$ID <- as.numeric(c(5,10,5,10)) 
attributes$Begin_A <-date1 
attributes$End_A <-date2 
attributes$Interval <-attributes$Begin_A %--% attributes$End_A 
attributes$Value<- as.character(c("Cat1","Cat2","Cat3","Cat4")) 

### Bookings data frame: 

date1 <- as.Date(c('2017-3-3','2017-5-3','2017-3-3','2017-12-5')) 
date2 <- as.Date(c('2017-3-5','2017-5-5','2017-3-5','2017-12-6')) 
bookings <- data.frame(matrix(NA,nrow=4, ncol = 4)) 
names(bookings) <- c("ID","Begin_A", "End_A", "Interval") 
bookings$ID <- as.numeric(c(5,6,8,10)) 
bookings$Begin_A <-date1 
bookings$End_A <-date2 
bookings$Interval <-bookings$Begin_A %--% bookings$End_A 

C'est la solution pour le post précédent fourni par JCT:

library(tidyverse) 

attributes2 <- attributes %>% 
    select(-Interval) %>% 
    gather(Type, Date, ends_with("_A")) %>% 
    select(-Type) %>% 
    group_by(Value) %>% 
    complete(Date = full_seq(Date, period = 1), ID) %>% 
    ungroup() 

bookings2 <- bookings %>% 
    select(-Interval) %>% 
    gather(Type, Date, ends_with("_A")) %>% 
    select(-Type) %>% 
    group_by(ID) %>% 
    complete(Date = full_seq(Date, period = 1)) %>% 
    ungroup() 

bookings3 <- bookings2 %>% 
    left_join(attributes2, by = c("ID", "Date")) %>% 
    group_by(ID) %>% 
    summarise(Attribute_value = toString(sort(unique(Value)))) %>% 
    mutate(Attribute_value = ifelse(Attribute_value %in% "", NA, Attribute_value)) 

bookings4 <- bookings %>% left_join(bookings3, by = "ID") 
bookings4 
    ID Begin_A  End_A      Interval Attribute_value 
1 5 2017-03-03 2017-03-05 2017-03-03 UTC--2017-03-05 UTC  Cat1, Cat3 
2 6 2017-05-03 2017-05-05 2017-05-03 UTC--2017-05-05 UTC   <NA> 
3 8 2017-03-03 2017-03-05 2017-03-03 UTC--2017-03-05 UTC   <NA> 
4 10 2017-12-05 2017-12-06 2017-12-05 UTC--2017-12-06 UTC   Cat4 
+3

Check out 'data.table :: foverlaps' qui est conçu spécifiquement pour effectuer le chevauchement des jointures. – Mako212

Répondre

1

Vous pouvez envisager data.table qui permet de « non-équi rejoint » c'est-à-dire des jointures basées sur >=, >, <= et <. Dans le même appel, des opérations d'agrégation peuvent être effectuées sur les groupes de l'ensemble de données LHS que chaque ligne de l'ensemble de données RHS (i) correspond (by = .EACHI).

d1[d2, on = .(id = id, end >= begin), 
     .(i.begin, i.end, val_str = toString(val)), by = .EACHI] 

# id  end i.begin  i.end val_str 
# 1: 5 2017-03-03 2017-03-03 2017-03-05 Cat3, Cat1 
# 2: 6 2017-05-03 2017-05-03 2017-05-05   NA 
# 3: 8 2017-03-03 2017-03-03 2017-03-05   NA 
# 4: 10 2017-12-05 2017-12-05 2017-12-06  Cat4 

Préparation des données:

d1 <- data.frame(id = c(5, 10, 5, 10), 
       begin = as.Date(c('1990-3-1','1993-12-1','1991-3-1','1995-12-5')), 
       end = as.Date(c('2017-3-10','2017-12-2','2017-3-3','2017-12-10')), 
       val = c("Cat1", "Cat2", "Cat3", "Cat4")) 

d2 <- data.frame(id = c(5, 6, 8, 10), 
       begin = as.Date(c('2017-3-3','2017-5-3','2017-3-3','2017-12-5')), 
       end = as.Date(c('2017-3-5','2017-5-5','2017-3-5','2017-12-6'))) 

library(data.table) 
setDT(d1) 
setDT(d2)