我将Apache-Beam与Python SDK结合使用。

当前,我的管道读取多个文件,对其进行解析,并根据其数据生成熊猫数据帧。
然后,将它们分组为单个数据帧。

我现在想要的是检索此单个胖数据帧,并将其分配给普通的Python变量。

有可能吗?

最佳答案

PCollection只是执行图中的逻辑节点,其内容不一定实际存储在任何地方,因此这不可能直接实现。

但是,您可以要求管道将PCollection写入文件(例如,将元素转换为字符串并在WriteToText中使用num_shards=1),运行管道并等待其完成,然后从您的文件中读取该文件。主程序。

10-02 11:01