我正在使用R中的巨大数据表,其中包含由不同来源获取的多个位置的每月温度测量值。

数据集如下所示:

library(data.table)

# Generate random data:
loc <- 1:10
dates <- seq(as.Date("2000-01-01"), as.Date("2004-12-31"), by="month")
mods <- c("A","B", "C", "D", "E")
temp <- runif(length(loc)*length(dates)*length(mods), min=0, max=30)
df <- data.table(expand.grid(Location=loc,Date=dates,Model=mods),Temperature=temp)

因此,基本上,对于位置1,我有2000年1月到2004年12月之间由模型A进行的测量。然后,我对模型B进行了测量。对于模型C,D和E依此类推。然后,对于位置2到位置10。

我需要做的是获取所有模型的平均温度,而不是进行五个不同的温度测量(来自模型)。

结果,对于每个位置和每个日期,我将不会有五个,而只有一个温度测量值(这将是一个多模型平均值)。

我尝试了这个:
df2 <- df[, Mean:=mean(Temperature), by=list(Model, Location, Date)]

这没有我预期的那样。我至少希望生成的数据表是原始表的行数的1/5,因为我将五个度量汇总为一个度量。

我究竟做错了什么?

最佳答案

我认为您无法正确生成测试数据。函数 expand.grid() 接受所有参数的笛卡尔积。我不确定为什么您在Temperature=temp调用中包括了expand.grid()参数;会为每个键组合复制每个温度值,从而产生具有900万行的data.table(这是(10*60*5)^2)。我认为您希望每个键一个温度值,这将导致10*60*5行:

df <- data.table(expand.grid(Location=loc,Date=dates,Model=mods),Temperature=temp);
df;
##       Location       Date Model Temperature
##    1:        1 2000-01-01     A    2.469751
##    2:        2 2000-01-01     A   16.103135
##    3:        3 2000-01-01     A    7.147051
##    4:        4 2000-01-01     A   10.301937
##    5:        5 2000-01-01     A   16.760238
##   ---
## 2996:        6 2004-12-01     E   26.293968
## 2997:        7 2004-12-01     E    8.446528
## 2998:        8 2004-12-01     E   29.003001
## 2999:        9 2004-12-01     E   12.076765
## 3000:       10 2004-12-01     E   28.410980

如果正确,则可以使用以下方法在各个模型之间生成均值:
df[,.(Mean=mean(Temperature)),.(Location,Date)];
##      Location       Date      Mean
##   1:        1 2000-01-01  9.498497
##   2:        2 2000-01-01 11.744622
##   3:        3 2000-01-01 15.691228
##   4:        4 2000-01-01 11.457154
##   5:        5 2000-01-01  8.897931
##  ---
## 596:        6 2004-12-01 17.587000
## 597:        7 2004-12-01 19.555963
## 598:        8 2004-12-01 15.710465
## 599:        9 2004-12-01 15.322790
## 600:       10 2004-12-01 20.240392

请注意,:=运算符实际上并未聚合。它仅添加,修改或删除原始data.table中的列。可以添加具有重复的聚合计算(例如,参见http://www.r-bloggers.com/two-of-my-favorite-data-table-features/)的新列(或覆盖旧列),但这不是您想要的。

通常,聚合数据表时,必须生成一个新表,每个聚合键将其减少为一行。 :=运算符不执行此操作。

相反,我们需要在data.table上运行常规索引操作,按所需的聚合键(将自动包含在输出data.table中)进行分组,并添加到j参数中,该参数将针对每个参数进行一次评估团体。结果将是原始表的简化版本,所有j参数评估的结果将与它们各自的聚合键合并。由于我们的j参数会为每个组得出一个标量值,因此我们的结果将是每个Location/Date聚合键一行。

10-07 13:08
查看更多