我正在尝试使用 ggplot 为包含大约 2900 万个值的大型数据集绘制 CDF 曲线。我计算这个的方式是这样的:
mycounts = ddply(idata.frame(newdata), .(Type), transform, ecd = ecdf(Value)(Value))
plot = ggplot(mycounts, aes(x=Value, y=ecd))
这需要很长时间来策划。我想知道是否有一种干净的方法来仅绘制此数据集的样本(例如,每 10 个点或第 50 个点)而不影响实际结果?
最佳答案
我不确定你的数据结构,但一个简单的 sample
调用可能就足够了:
n <- nrow(mycounts) # number of cases in data frame
mycounts <- mycounts[sample(n, round(n/10)), ] # get an n/10 sample to the same data frame
关于r - 仅绘制点的子集?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/7864797/