J'ai une trame de données comme suit:développer une trame de données pour avoir autant de lignes que la gamme de deux colonnes dans l'original rangée
structure(list(symbol = c("u", "n", "v", "i", "a"), start = c(9L,
6L, 10L, 8L, 7L), end = c(14L, 15L, 12L, 13L, 11L)), .Names = c("symbol",
"start", "end"), class = "data.frame", row.names = c("1", "2",
"3", "4", "5"))
Je veux autant de lignes que les valeurs de l'ordre de (début, fin) pour chaque symbole. Ainsi, la trame de données final ressemblera:
structure(list(symbol = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 5L, 5L, 5L, 5L, 5L), .Label = c("a", "l", "n", "v", "y"
), class = "factor"), value = c(7L, 8L, 9L, 10L, 11L, 6L, 7L,
8L, 9L, 10L, 11L, 12L, 13L, 14L, 8L, 9L, 10L, 11L, 12L, 10L,
11L, 12L, 13L, 14L, 15L, 9L, 10L, 11L, 12L, 13L)), class = "data.frame", row.names = c(NA,
-30L), .Names = c("symbol", "value"))
Je pensais que je pouvais simplement avoir une liste de valeurs par ligne, puis unnest
utilisons tidyr
package comme suit:
df$value <- apply(df, 1, function(x) as.list(x[2]:x[3]))
dput(df)
structure(list(symbol = structure(c(4L, 3L, 5L, 2L, 1L), .Label = c("a",
"i", "n", "u", "v"), class = "factor"), start = c(9L, 6L, 10L,
8L, 7L), end = c(14L, 15L, 12L, 13L, 11L), value = structure(list(
`1` = list(9L, 10L, 11L, 12L, 13L, 14L), `2` = list(6L, 7L,
8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L), `3` = list(10L,
11L, 12L), `4` = list(8L, 9L, 10L, 11L, 12L, 13L), `5` = list(
7L, 8L, 9L, 10L, 11L)), .Names = c("1", "2", "3", "4",
"5"))), .Names = c("symbol", "start", "end", "value"), row.names = c("1",
"2", "3", "4", "5"), class = "data.frame")
df
symbol start end value
1 u 9 14 9, 10, 11, 12, 13, 14
2 n 6 15 6, 7, 8, 9, 10, 11, 12, 13, 14, 15
3 v 10 12 10, 11, 12
4 i 8 13 8, 9, 10, 11, 12, 13
5 a 7 11 7, 8, 9, 10, 11
Ensuite, faites:
library(tidyr)
unnest(df, value)
Cependant, je pense que je frappe cette fonction/bug en attente: https://github.com/tidyverse/tidyr/issues/278
Error: Each column must either be a list of vectors or a list of data frames [value]
Y a-t-il un meilleur moyen de le faire, en particulier en évitant d'appliquer la famille?
Zut simple, hein! Je continue d'oublier combien de puissance le 'do 'a dans un pipeline. Je ai essayé de jouer avec un peu pour ce problème, mais je ne pouvais pas trouver les bonnes mesures. Parfait. Je vous remercie! – Gopala