python - 如何获取“HTTPS”链接以及如何在python中将epub转换为txt？ | BeautifulSoup

BeautifulSoup

ruby - Ruby-词法作用域与继承

javascript - 使用angularjs从本地json打印数据

javascript - header 中的所有复选框都被选中时要选中的复选框，甚至在其中一个复选框未被选中时也要取消选中的复选框

r - R中所有变量的中值替换缺失值

python - 解释SciPy的分层聚类树状图的输出？ (也许发现了一个错误……)

ios - UIImageView阴影不起作用

r - Rcpp或rdyncall

c++ - 用序列优雅地初始化静态(成员)数组

laravel - Laravel 5，检查类是否在容器中注册

python - 如何在没有警告的情况下写入结构化数组中的单个字段

sql - 如何在R数据帧上执行类似SQL的操作？

r - Rcpp Rcpp.package.skeleton (“mypackage”) “rcpp_hello_world”不适用于 “mypackage”包的.Call()

hadoop - HBase oldWAL:它是什么，我该如何清理？

android - 在Android手机上实时执行语音处理

java - Android支持v14 PreferenceFragment崩溃

python - 如何获取“HTTPS”链接以及如何在python中将epub转换为txt？

扫码查看

我想将epub转换为txt。
我首先通过zipfile将epub转换为xhtml。
然后我尝试通过beautifulsoup将xhtml转换为epub。

但是，由于本地文件名，因此出现问题。
例如，MY xhtml文件名是“ C：\ Users \ abc.xhtml”，而不是“ HTTPS”。
因此beautifulsoup无法正常工作。

我该如何解决？

'''
import zipfile

zf = zipfile.ZipFile('C:\\Users\\abc.epub')
zf.extractall('C:\\Users\\Desktop\\folder')
'''
import re, requests
from bs4 import BeautifulSoup
html = "C:\\Users\\abc.xhtml"

soup = BeautifulSoup(html, 'lxml')
print(soup.text)

最佳答案

BeautifulSoup构造函数需要html文件而不是url的实际内容。尝试这个：

with open(html) as f:
    contents = f.read()
soup = BeautifulSoupd(contents, 'lxml')

07-24 09:53