如何使用python解压缩内存中的* .bz2文件?
bz2文件来自csv文件。
我使用下面的代码将其解压缩到内存中,它可以工作,但是它带来了一些脏数据,例如csv文件的文件名和作者名,还有其他更好的方法来处理它吗?
#!/usr/bin/python
# -*- coding: utf-8 -*-
import StringIO
import bz2
with open("/app/tmp/res_test.tar.bz2", "rb") as f:
content = f.read()
compressedFile = StringIO.StringIO(content)
decompressedFile = bz2.decompress(compressedFile.buf)
compressedFile.seek(0)
with open("/app/tmp/decompress_test", 'w') as outfile:
outfile.write(decompressedFile)
我发现this question,它是gzip格式,但是我的数据是bz2格式,我尝试按照其中的指示进行操作,但似乎bz2无法以这种方式处理它。
编辑:
无论@metatoaster的答案还是上面的代码,这两者都将把更多的脏数据带入最终的解压缩文件中。
例如:我的原始数据以csv格式附在下面,名称为res_test.csv:
然后,我进入文件所在的目录,并用
tar -cjf res_test.tar.bz2 res_test.csv
进行压缩,并获得压缩文件res_test.tar.bz2,该文件可以模拟我将从互联网上获取的bz2数据,并希望在内存中对其进行解压缩没有先将其缓存到磁盘中,但是我得到的是下面的数据,其中包含太多脏数据:数据仍然存在,但是被噪声淹没了,是否有可能将其解压缩为与原始数据相同的纯数据,而不是解压缩并从过多的噪声中提取真实数据?
最佳答案
对于通用bz2解压缩,可以使用BZ2File
类。
from bz2 import BZ2File
with BZ2File("/app/tmp/res_test.tar.bz2") as f:
content = f.read()
content
应包含文件的解压缩内容。但是,由于这是一个
tar
文件(通常是作为文件目录提取到磁盘的存档文件),因此可以使用tarfile
模块,并且该模块具有用于处理bz2的扩展模式标志。假设目标文件包含res_test.csv
,则可以使用以下内容tf = tarfile.open('/app/tmp/res_test.tar.bz2', 'r:bz2')
csvfile = tf.extractfile('res_test.csv').read()
r:bz2
标志以一种可以向后搜索的方式打开tar存档,这很重要,因为替代方法r|bz2
使得从extractfile
返回的成员中调用提取文件不切实际。第二行只是调用extractfile
以将存档文件中'res_test.csv'
的内容作为字符串返回。但是,通常建议使用透明打开模式(
'r:*'
),因此,如果使用gzip对输入的tar文件进行压缩,则不会遇到任何失败。自然,
tarfile
模块具有较低级别的open
方法,该方法可用于任意流对象。如果已经使用BZ2File
打开了文件,则也可以使用with BZ2File("/app/tmp/res_test.tar.bz2") as f:
tf = tarfile.open(fileobj=f, mode='r:')
csvfile = tf.extractfile('res_test.csv').read()
关于python - 如何使用python解压缩内存中的.tar.bz2,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46291529/