问题
用于股票交易的ML数据准备。我在大型DataFrame上有3-d MultiIndex(也许是n=800000 x f=20
)。一个索引维是具有大约date
级别的dt=1000
,其他索引维标识不同股票的m=800
(每个股票有20个特征,每个股票各有一个)。因此,对于每个日期,都有800 x 20个不同的值。
现在,我有了dt=1000 x g=30
全局时间序列(例如DJIA,货币汇率等),因此每个日期的30个值与每只股票都相同。这是一个仅以日期为索引的索引的DataFrame。
问题1
如何合并这两个数据集,以便将30系列广播到每只股票上,并最终形成(800000 x 50)
形状?
问题2
有没有一种方法可以做到这一点,而不是通过复制后30列的数据,而是通过查看原始数据来节省内存?使用我提到的数字,float64的精度仍将达到〜300 MB,这还是可以的。但是我很好奇。
示例
这是我所拥有的f=2
,g=1
,m=4
和dt=3
的一个最小示例:
import pandas as pd
data = {
'x': [5,6,7,3,4,5,1,1,0,12,15,14],
'y': [4,6,5,5,4,3,2,0,1,13,14,13]
}
dates = [pd.to_datetime('2018-01-01'), pd.to_datetime('2018-01-02'), pd.to_datetime('2018-01-03')]
index = pd.MultiIndex.from_arrays([
['alpha'] * 6 + ['beta'] * 6,
['A'] * 3 + ['B'] * 3 + ['C'] * 3 + ['D'] * 3,
dates * 4,
])
df1 = pd.DataFrame(data, index=index)
df1.index.names = ['level', 'name', 'date']
df2 = pd.DataFrame([123,124,125], index=dates, columns=['z'])
df2.index.name = "date"
print (df1)
print (df2)
-------------------------------
x y
level name date
alpha A 2018-01-01 5 4
2018-01-02 6 6
2018-01-03 7 5
B 2018-01-01 3 5
2018-01-02 4 4
2018-01-03 5 3
beta C 2018-01-01 1 2
2018-01-02 1 0
2018-01-03 0 1
D 2018-01-01 12 13
2018-01-02 15 14
2018-01-03 14 13
z
date
2018-01-01 123
2018-01-02 124
2018-01-03 125
我想要拥有的是:
x y z
level name date
alpha A 2018-01-01 5 4 123
2018-01-02 6 6 124
2018-01-03 7 5 125
B 2018-01-01 3 5 123
2018-01-02 4 4 124
2018-01-03 5 3 125
beta C 2018-01-01 1 2 123
2018-01-02 1 0 124
2018-01-03 0 1 125
D 2018-01-01 12 13 123
2018-01-02 15 14 124
2018-01-03 14 13 125
最佳答案
我认为需要 join
在两个date
中都与相同索引名称DataFrame
对齐的内容:
df = df1.join(df2)
print (df)
x y z
level name date
alpha A 2018-01-01 5 4 123
2018-01-02 6 6 124
2018-01-03 7 5 125
B 2018-01-01 3 5 123
2018-01-02 4 4 124
2018-01-03 5 3 125
beta C 2018-01-01 1 2 123
2018-01-02 1 0 124
2018-01-03 0 1 125
D 2018-01-01 12 13 123
2018-01-02 15 14 124
2018-01-03 14 13 125
关于python - Pandas :在MultiIndex DataFrame上复制/广播单索引DataFrame:HowTo和内存效率,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/48807723/