我正在尝试使用 python-docx 库从 .docx 文件中获取图像索引。我能够提取图像的名称、图像的高度和宽度。但不是它在单词文件中的索引

import docx
doc = docx.Document(filename)
for s in doc.inline_shapes:
    print (s.height.cm,s.width.cm,s._inline.graphic.graphicData.pic.nvPicPr.cNvPr.name)

输出
21.228  15.920 IMG_20160910_220903848.jpg

事实上,我想知道是否有更简单的方法来获取图像名称,比如 s.height.cm 以厘米为单位获取高度。我的主要要求是了解图像在文档中的位置,因为我需要提取图像并对其进行一些工作,然后再次将图像放回同一位置

最佳答案

API不直接支持此操作。

但是,如果您愿意稍微研究一下内部结构并使用底层的lxml API,则有可能。

一般方法是访问与要检查和修改的图片相对应的ImagePart实例,然后读写._blob属性(将图像文件保存为字节)。

这个示例XML可能会有所帮助:
http://python-docx.readthedocs.io/en/latest/dev/analysis/features/shapes/picture.html#specimen-xml

从包含图片的内联形状中,您可以得到带有以下内容的<a:blip>元素:

blip = inline_shape._inline.graphic.graphicData.pic.blipFill.blip

关系id(通常为r:id,但在这种情况下为r:embed)可在以下位置找到:
rId = blip.embed

然后您可以从文档部分获取图像部分
document_part = document.part
image_part = document_part.related_parts[rId]

然后二进制图像可用于在._blob上进行读写。

如果编写新的Blob,则保存后它将替换先前的图像。

您可能想要使它与单个图像配合使用,并在将其扩展到单个文档中的多个图像之前对它有所了解。

可能会缓存一两个图像特征,因此在保存并重新加载文件之前,可能无法使所有细微的功能都起作用,因此请注意这一点。

如您所见,这并不会让您胆怯,但是如果您希望它足够糟糕并且可以稍微遍历代码,则应该可以使用:)

关于python - 使用 python-docx 从 .docx 文件中提取图像位置,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41200127/

10-14 17:39
查看更多