我正在使用 python 包邮箱,我正在尝试提取消息并清理数据。我遇到了一个问题,对于大型数据库,我可以用我的示例文件调用构造函数,但是当我尝试打印任何消息时,我的程序挂起。我认为这是因为我试图读取的文件超过 7GB。我该如何处理这个问题?

最佳答案

考虑手动拆分邮箱。通过逐行读取该格式相当容易处理(只要您只需要只读访问权限);并且您可以使用现有的类来实际解析单个消息。

查找 mbox 格式的定义 - 以“From”开头的行开始新邮件。您可以在这些标记处拆分大文件,然后使用 mailbox 包一次仅读取一个文件。

关于大型 mbox 数据集上的 Python 邮箱,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26499051/

10-12 04:43