我正在使用 purrr::map 在长数据框列表列上运行耗时的函数,我想打印正在执行的行的指示器,以便我可以跟踪进度。

这是一个小例子:

当我运行这个:

library(dplyr)
library(tidyr)
library(purrr)
mtcars %>%
    group_by(carb) %>%
    nest() %>%
    mutate(n = map(data, nrow))

我想输出正在执行的行的 carb:
#> 4
#> 1
#> 2
#> 3
#> 6
#> 8

您可以通过使用 for 循环获得,如下所示:
df <-
    mtcars %>%
    group_by(carb) %>%
    nest() %>%
    mutate(n = NA)
for (i in 1:nrow(df)) {
    print(df$carb[i])
    df$n[i] <- list(nrow(df$data[[i]]))
}

最佳答案

您可以在使用 carb 运行 data 的同时运行 map2() 。然后,您可以向函数中添加 print() 语句以输出 carb

dat = mtcars %>%
    group_by(carb) %>%
    nest() %>%
    mutate(n = map2(data, carb, ~{
        print(.y)
        nrow(.x)
        })
        )

[1] 4
[1] 1
[1] 2
[1] 3
[1] 6
[1] 8

dat
# A tibble: 6 x 3
   carb data               n
  <dbl> <list>             <list>
1     4 <tibble [10 x 11]> <int [1]>
2     1 <tibble [7 x 11]>  <int [1]>
3     2 <tibble [10 x 11]> <int [1]>
4     3 <tibble [3 x 11]>  <int [1]>
5     6 <tibble [1 x 11]>  <int [1]>
6     8 <tibble [1 x 11]>  <int [1]>

为方便起见,我使用了公式语法,其中 .x 指的是 map2() 中的第一个向量,而 .y 指的是第二个向量。如果更清楚,您可以执行匿名函数。 (我不确定我是否喜欢带有波浪号的括号。)
mtcars %>%
    group_by(carb) %>%
    nest() %>%
    mutate(n = map2(data, carb, function(x, y) {
        print(y)
        nrow(x)
        })
        )

关于r - 如何打印 purrr::map 在 R 中作用的数据帧行,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51663855/

10-12 17:05