假设我有一个大型数据集(8500000X50)。我想散布图X(日期)和Y(在某天进行的测量)。
我只能得到这个:
data_X = data['date_local']
data_Y = data['arithmetic_mean']
data_Y = data_Y.round(1)
data_Y = data_Y.astype(int)
data_X = data_X.astype(int)
sns.regplot(data_X, data_Y, data=data)
plt.show()
根据我在Stackoverflow上发现的“相同”问题,我可以重新整理数据或采用1000个随机值进行绘制。
但是如何以每个X(进行特定测量的日期)对应于实际(Y测量)的方式来实现它。
最佳答案
首先,回答您的问题:
您应该使用 pandas.DataFrame.sample
从日期框架中获取样本,然后使用 regplot
,这是一个使用随机数据的小示例:
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
from datetime import datetime
import numpy as np
import pandas as pd
import seaborn as sns
dates = pd.date_range('20080101', periods=10000, freq="D")
df = pd.DataFrame({"dates": dates, "data": np.random.randn(10000)})
dfSample = df.sample(1000) # This is the importante line
xdataSample, ydataSample = dfSample["dates"], dfSample["data"]
sns.regplot(x=mdates.date2num(xdataSample.astype(datetime)), y=ydataSample)
plt.show()
由于日期时间的类型,我在regplot
上执行X数据转换,请注意,根据您的数据,这绝对是而不是是必需的。因此,而不是像这样的事情:
您将获得如下内容:
现在,一个建议:
使用文档中的
sns.jointplot
,它具有kind
参数:我们在此处创建的内容与matplotlib的hist2d相似,它使用整个数据集创建了类似热图的内容。使用随机数据的示例:
dates = pd.date_range('20080101', periods=10000, freq="D")
df = pd.DataFrame({"dates": dates, "data": np.random.randn(10000)})
xdata, ydata = df["dates"], df["data"]
sns.jointplot(x=mdates.date2num(xdata.astype(datetime)), y=ydata, kind="kde")
plt.show()
这将产生此图像,这也有助于查看沿所需轴的分布:关于python - 散点图上的大量数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45092124/