我正在做一些研究,在一个大文本文件中有+25,000个报告。每个报告均按“ TEXTSTART [UNIQUE-ID]”和“ TEXTEND”进行划分。

到目前为止,我已经成功使用以下代码从txt文件中读取了一个报告(即标识符之间的文本):

f = open("samples_combined_incomplete.txt","r" )
report = f.read()
f.close()

rstart = "TEXTSTART"
rend = "TEXTEND"

a = ((report.split(rstart))[1].split(rend)[0])
print (a)


我的问题是这个;如何基于TEXTSTART [UNIQUE-ID]将文本文档分为唯一可识别的子字符串?以及如何返回ID?

我才刚刚开始,因此任何有关文档,有用功能等的建议都将得到广泛应用。



谢谢,作品像个魅力! ID是数字和字符FYI的组合。

f = open("samples_combined_incomplete.txt","r" )
report = f.read()
f.close()

rstart = "TEXTSTART"
rend = "TEXTEND"
a = 0

dict = re.findall('TEXTSTART\[(.*?)\](.*?)TEXTEND', report, re.DOTALL)

while a < 10:
    print (dict[a])
    a += 1


如果我想在容器中搜索特定的关键字并返回键,我该怎么做?

最佳答案

import re
print dict(re.findall('TEXTSTART\[([^\]]+)\](.*?)TEXTEND', report, re.DOTALL))

07-24 13:01