This question already has answers here:
Split dataframe using two columns of data and apply common transformation on list of resulting dataframes

(2个答案)


2年前关闭。





我创建了一个函数,可以计算许多生物统计数据,例如物种范围边缘。这是该函数的简化版本:

range_stats <- function(rangedf, lat, lon, weighting, na.rm=T){
  cent_lat <- weighted.mean(x=rangedf[,lat], w=rangedf[,weighting], na.rm=T)
  cent_lon <- weighted.mean(x=rangedf[,lon], w=rangedf[,weighting], na.rm=T)
out <- data.frame(cent_lat, cent_lon)
return(out)
}


我想将其应用于大型数据框,其中每一行都是一个物种的观察结果。这样,我希望函数按一组指定的列对行进行分组,然后为每个组计算这些统计信息。这是一个测试数据帧:

LATITUDE <- c(27.91977, 21.29066, 26.06340, 28.38918, 25.97517, 27.96313)
LONGITUDE <- c(-175.8617, -157.8645, -173.9593, -178.3571, -173.9679, -175.7837)
BIOMASS <- c(4.3540488, 0.2406332, 0.2406332, 2.1419699, 0.3451426, 1.0946017)
SPECIES <- c('Abudefduf abdominalis','Abudefduf abdominalis','Abudefduf abdominalis','Chaetodon lunulatus','Chaetodon lunulatus','Chaetodon lunulatus')
YEAR <- c('2005', '2005', '2014', '2009', '2009', '2015')
testdf <- data.table(LATITUDE, LONGITUDE, BIOMASS, SPECIES, YEAR)


我想将此功能应用于物种和年份的每个唯一组合以计算汇总统计信息,即以下内容:

testresult <- testdf %>%
  group_by(SPECIES, YEAR) %>%
  range_stats(lat="LATITUDE",lon="LONGITUDE",weighting="BIOMASS",na.rm=T)


但是,上面的代码不起作用(出现(list) object cannot be coerced to type 'double'错误),并且我不确定如何解决该问题。

最佳答案

由于您添加了dplyrpurrr标记,因此我假设您对tidyverse解决方案感兴趣。因此,下面我将演示基于tidyverse的解决方案。

首先,您的range_stats有问题。这就是为什么您收到错误消息。 weighted.mean期望xw参数的向量。但是,如果rangedftibble,则对tibble进行子集化的方式(例如rangedf[,lat])仍将返回单列tibble。更好的方法是使用pull包中的dplyr

library(tidyverse)
range_stats <- function(rangedf, lat, lon, weighting, na.rm=T){
  cent_lat <- weighted.mean(x = rangedf %>% pull(lat),
                            w = rangedf %>% pull(weighting), na.rm=T)
  cent_lon <- weighted.mean(x = rangedf %>% pull(lon),
                            w = rangedf %>% pull(weighting), na.rm=T)
  out <- data.frame(cent_lat, cent_lon)
  return(out)
}


接下来,创建数据框的方法是可以的,但是data.table来自data.table包,您将创建data.table,而不是tibble。我以为您要使用tidyverse的方法,因此我将data.table更改为data_frame如下。

LATITUDE <- c(27.91977, 21.29066, 26.06340, 28.38918, 25.97517, 27.96313)
LONGITUDE <- c(-175.8617, -157.8645, -173.9593, -178.3571, -173.9679, -175.7837)
BIOMASS <- c(4.3540488, 0.2406332, 0.2406332, 2.1419699, 0.3451426, 1.0946017)
SPECIES <- c('Abudefduf abdominalis','Abudefduf abdominalis','Abudefduf abdominalis','Chaetodon lunulatus','Chaetodon lunulatus','Chaetodon lunulatus')
YEAR <- c('2005', '2005', '2014', '2009', '2009', '2015')
testdf <- data_frame(LATITUDE, LONGITUDE, BIOMASS, SPECIES, YEAR)


现在,您说过要对range_statsSPECIES的每个组合应用YEAR函数。一种方法是将数据帧拆分为数据帧列表,并使用lapply系列功能。但是在这里,我想向您展示如何使用map系列函数来实现此任务,因为map来自purrr包,它是tidyverse的一部分。

我们首先可以基于SPECIESYEAR创建组索引。

testdf2 <- testdf %>%
  mutate(Group = group_indices(., SPECIES, YEAR))
testdf2
# A tibble: 6 x 6
  LATITUDE LONGITUDE   BIOMASS               SPECIES  YEAR Group
     <dbl>     <dbl>     <dbl>                 <chr> <chr> <int>
1 27.91977 -175.8617 4.3540488 Abudefduf abdominalis  2005     1
2 21.29066 -157.8645 0.2406332 Abudefduf abdominalis  2005     1
3 26.06340 -173.9593 0.2406332 Abudefduf abdominalis  2014     2
4 28.38918 -178.3571 2.1419699   Chaetodon lunulatus  2009     3
5 25.97517 -173.9679 0.3451426   Chaetodon lunulatus  2009     3
6 27.96313 -175.7837 1.0946017   Chaetodon lunulatus  2015     4


如您所见,Group是显示索引号的新列。现在,我们可以基于Group拆分数据帧,然后使用map_dfr应用range_stats函数。

testresult <- testdf2 %>%
  split(.$Group) %>%
  map_dfr(range_stats, lat = "LATITUDE",lon = "LONGITUDE",
          weighting = "BIOMASS", na.rm = TRUE, .id = "Group")
testresult
  Group cent_lat  cent_lon
1     1 27.57259 -174.9191
2     2 26.06340 -173.9593
3     3 28.05418 -177.7480
4     4 27.96313 -175.7837


注意,map_dfr可以将数据帧的输出列表自动绑定到单个数据帧。 .id = "Group"表示我们要基于列表元素的名称创建一个名为Group的列。

我将过程分为两个步骤,但是当然可以按照以下步骤将它们全部放在一个管道中。

testresult  <- testdf %>%
  mutate(Group = group_indices(., SPECIES, YEAR))  %>%
  split(.$Group) %>%
  map_dfr(range_stats, lat = "LATITUDE",lon = "LONGITUDE",
          weighting = "BIOMASS", na.rm = TRUE, .id = "Group")


如果需要,可以使用testresulttestdfleft_join合并,但是我将在此处停止,因为testresult可能已经是您想要的输出。我希望这有帮助。

关于r - 将功能应用于数据框中的分组行,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46415198/

10-12 17:14
查看更多