很多时候,我有一个很大的数据框来保存基本数据,需要创建更多的列来保存由基本数据列计算的派生数据。
我可以在熊猫身上这样做,比如:

df['derivative_col1'] = df['basic_col1'] + df['basic_col2']
df['derivative_col2'] = df['basic_col1'] * df['basic_col2']
....
df['derivative_coln'] = func(list_of_basic_cols)

等等,pandas将同时计算和分配所有派生列的内存。
我现在想要的是有一个延迟的评估机制,将派生列的计算和内存分配推迟到实际需要的时候。在某种程度上,将lazy eval列定义为:
df['derivative_col1'] = pandas.lazy_eval(df['basic_col1'] + df['basic_col2'])
df['derivative_col2'] = pandas.lazy_eval(df['basic_col1'] * df['basic_col2'])

这将节省时间/内存,如python的“yield”生成器,因为如果我发出df命令,则只会触发特定的计算和内存分配。
那么在熊猫身上该怎么做呢?欢迎任何提示/想法/参考。

最佳答案

从0.13开始(很快发布),您可以这样做。这将使用生成器来评估动态公式。通过eval进行的在线分配将是0.13中的一个附加功能,请参见here

In [19]: df = DataFrame(randn(5, 2), columns=['a', 'b'])

In [20]: df
Out[20]:
          a         b
0 -1.949107 -0.763762
1 -0.382173 -0.970349
2  0.202116  0.094344
3 -1.225579 -0.447545
4  1.739508 -0.400829

In [21]: formulas = [ ('c','a+b'), ('d', 'a*c')]

创建生成器,使用eval计算公式;分配结果,然后生成结果。
In [22]: def lazy(x, formulas):
   ....:     for col, f in formulas:
   ....:         x[col] = x.eval(f)
   ....:         yield x
   ....:

行动中
In [23]: gen = lazy(df,formulas)

In [24]: gen.next()
Out[24]:
          a         b         c
0 -1.949107 -0.763762 -2.712869
1 -0.382173 -0.970349 -1.352522
2  0.202116  0.094344  0.296459
3 -1.225579 -0.447545 -1.673123
4  1.739508 -0.400829  1.338679

In [25]: gen.next()
Out[25]:
          a         b         c         d
0 -1.949107 -0.763762 -2.712869  5.287670
1 -0.382173 -0.970349 -1.352522  0.516897
2  0.202116  0.094344  0.296459  0.059919
3 -1.225579 -0.447545 -1.673123  2.050545
4  1.739508 -0.400829  1.338679  2.328644

因此,它的用户决定了评估的顺序(而不是按需)。理论上,numba将支持这一点,因此熊猫可能会支持这一点作为eval的后端(目前使用numexpr进行即时评估)。
我的2C。
懒惰的评估是很好的,但是可以通过使用Python自己的延续/生成特性很容易地实现,因此将它构建成熊猫(pandas)虽然可能,但相当复杂,并且需要一个非常好的用例才能普遍有用。

10-06 13:29
查看更多