我想将epub转换为txt。
我首先通过zipfile将epub转换为xhtml。
然后我尝试通过beautifulsoup将xhtml转换为epub。

但是,由于本地文件名,因此出现问题。
例如,MY xhtml文件名是“ C:\ Users \ abc.xhtml”,而不是“ HTTPS”。
因此beautifulsoup无法正常工作。

我该如何解决?

'''
import zipfile

zf = zipfile.ZipFile('C:\\Users\\abc.epub')
zf.extractall('C:\\Users\\Desktop\\folder')
'''
import re, requests
from bs4 import BeautifulSoup
html = "C:\\Users\\abc.xhtml"

soup = BeautifulSoup(html, 'lxml')
print(soup.text)

最佳答案

BeautifulSoup构造函数需要html文件而不是url的实际内容。尝试这个:

with open(html) as f:
    contents = f.read()
soup = BeautifulSoupd(contents, 'lxml')

07-24 09:53
查看更多