我将Apache-Beam与Python SDK结合使用。
当前,我的管道读取多个文件,对其进行解析,并根据其数据生成熊猫数据帧。
然后,将它们分组为单个数据帧。
我现在想要的是检索此单个胖数据帧,并将其分配给普通的Python变量。
有可能吗?
最佳答案
PCollection
只是执行图中的逻辑节点,其内容不一定实际存储在任何地方,因此这不可能直接实现。
但是,您可以要求管道将PCollection
写入文件(例如,将元素转换为字符串并在WriteToText
中使用num_shards=1
),运行管道并等待其完成,然后从您的文件中读取该文件。主程序。