我想将epub转换为txt。
我首先通过zipfile将epub转换为xhtml。
然后我尝试通过beautifulsoup将xhtml转换为epub。
但是,由于本地文件名,因此出现问题。
例如,MY xhtml文件名是“ C:\ Users \ abc.xhtml”,而不是“ HTTPS”。
因此beautifulsoup无法正常工作。
我该如何解决?
'''
import zipfile
zf = zipfile.ZipFile('C:\\Users\\abc.epub')
zf.extractall('C:\\Users\\Desktop\\folder')
'''
import re, requests
from bs4 import BeautifulSoup
html = "C:\\Users\\abc.xhtml"
soup = BeautifulSoup(html, 'lxml')
print(soup.text)
最佳答案
BeautifulSoup
构造函数需要html文件而不是url的实际内容。尝试这个:
with open(html) as f:
contents = f.read()
soup = BeautifulSoupd(contents, 'lxml')