这里是巨蟒新手。我想浏览一个大的mbox文件,解析电子邮件消息。我可以这样做:
import sys
import mailbox
def gen_summary(filename):
mbox = mailbox.mbox(filename)
for message in mbox:
subj = message['subject']
print subj
if __name__ == "__main__":
if len(sys.argv) != 2:
print 'Usage: python genarchivesum.py mbox'
sys.exit(1)
gen_summary(sys.argv[1])
但我需要更多的控制。我需要能够在mbox文件中获取给定电子邮件开头的字节位置,还需要获取消息中的字节数(如磁盘上所示)。然后在将来,我不需要从mbox文件的开头开始迭代,我需要能够搜索到一个给定的消息,并仅仅解析它(因此需要获得磁盘上的字节位置)。这些都是大型mbox文件,效率是一个问题。
所有这一切的目的是为了我可以生成一个摘要文件,其中包含关于MBOX中每个电子邮件的一些小部分,然后在将来有效地查找MBOX中的单个电子邮件。
最佳答案
我还没有测试过这个,但是像这样的东西可能对你有用。只需打开文件(在二进制模式下,这样您的字节计数是正确的),然后扫描它,查找消息。
def is_mail_start(line):
return line.startswith("From ")
def build_index(fname):
with open(fname, "rb") as f:
i = 0
b = 0
# find start of first message
for line in f:
b += len(line)
if is_mail_start(line):
break
# find start of each message, and yield up (index, length) of previous message
for line in f:
if is_mail_start(line):
yield (i, b)
i += b
b = 0
b += len(line)
yield (i, b) # yield up (index, length) of last message
# get index as a list
mbox_index = list(build_index(fname))
一旦你有了索引,你就可以在一个文件对象上使用
.seek()
方法来查找它,在文件对象上使用.read(length)
方法来读取一条消息。不过,我不确定如何将mailbox
模块与字符串一起使用;我认为它是为了在适当的位置处理邮箱。也许还有其他一些邮件分析模块可以使用。关于python - 用Python解析mbox文件,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10251782/