我有不寻常格式的数据。变量名/列标题应该是当前行值,行值应该是变量名/列标题。

也就是说,我有一个这样的数据框:

id <- seq(1, 5, 1)
good <- c('', 'Q4', 'Q4, Q2', '', '')
ok <- c('Q3, Q1', '', '', 'Q2', '')
bad <- c('', 'Q2', 'Q2', '', '')

data <- as.data.frame(cbind(id, good, ok, bad))
cols <- c('good', 'ok', 'bad')
data[cols] <- lapply(data[cols], as.character)

我想将其转换为如下所示的数据框:
id <- seq(1,5,1)
Q1 <- c('ok', '', '', '', '')
Q2 <- c('', 'bad', 'good, bad', 'ok', '') # Yes, it is possible to get multiple,
# conflicting responses to a question from one id.
Q3 <- c('ok', '', '', '', '')
Q4 <- c('', 'good', 'good', '', '')

data_new <- as.data.frame(cbind(id, Q1, Q2, Q3, Q4))
cols <- c('Q1', 'Q2', 'Q3', 'Q4')
data_new[cols] <- lapply(data_new[cols], as.character)

一些问题:
  • 当前行值不能直接转置到列标题,因为有时在单个单元格中记录多个条目,而列标题中应该只记录一个值(例如,我不希望将列标题标记为'Q2, Q4' 在更新的数据框中)。
  • 另一方面,当列标题移动为行值时,会出现
    有时需要在同一个单元格中有多个条目。例如,id 3 的变量 Q2 下的条目应在更新的数据帧中读取为“好,坏”。

  • dplyr 解决方案是首选,但也欢迎使用其他包/基础 R 的答案。

    最佳答案

    这是 gather/spread 的一种方法。我们 gather 数据从 'wide' 到 'long',filter 根据 'val' 中的空白元素输出行,通过在 'val' 中的分隔符( , )处拆分来扩展数据,按 'id' 分组val', paste 'key' 的元素并 spread 将其重新编码为 'wide' 格式

    library(tidyverse)
    data %>%
       gather(key, val, -id) %>%
       filter(val != "") %>%
       separate_rows(val) %>%
       group_by(id = factor(id, levels = 1:5), val) %>%
       summarise(key = toString(key)) %>%
       spread(val, key, fill = "", drop = FALSE)
    # A tibble: 5 x 5
    # Groups:   id [5]
    #  id    Q1    Q2        Q3    Q4
    #  <fct> <chr> <chr>     <chr> <chr>
    #1 1     ok    ""        ok    ""
    #2 2     ""    bad       ""    good
    #3 3     ""    good, bad ""    good
    #4 4     ""    ok        ""    ""
    #5 5     ""    ""        ""    ""
    

    注意:该格式基于 printtibble 格式。如果我们想更改为 data.frame ,请在最后使用 as.data.frame

    关于用行值替换变量名,反之亦然,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/53112363/

    10-11 03:10