我正在尝试使用 ggplot 为包含大约 2900 万个值的大型数据集绘制 CDF 曲线。我计算这个的方式是这样的:

mycounts = ddply(idata.frame(newdata), .(Type), transform, ecd = ecdf(Value)(Value))
plot = ggplot(mycounts, aes(x=Value, y=ecd))

这需要很长时间来策划。我想知道是否有一种干净的方法来仅绘制此数据集的样本(例如,每 10 个点或第 50 个点)而不影响实际结果?

最佳答案

我不确定你的数据结构,但一个简单的 sample 调用可能就足够了:

n <- nrow(mycounts)                              # number of cases in data frame
mycounts <- mycounts[sample(n, round(n/10)), ]   # get an n/10 sample to the same data frame

关于r - 仅绘制点的子集?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/7864797/

10-09 00:52