我想从Quora或具有代码的一般帖子中解析此帖子。
示例:http://qr.ae/Rkplrt
通过使用Python库Selenium,我可以在帖子中获取HTML:
h = html2text.HTML2Text()
content = ans.find_element_by_class_name('inline_editor_value')
html_string = content.get_attribute('innerHTML')
text = h.handle(html_string)
print text
我希望所有内容都是一小段文字。但是,对于那些包含代码的表,html2text会插入许多
\n
并且不处理行的索引。所以我可以看到:
https://imageshack.com/i/paEKbzT4p(这是包含带有代码的表的主体div。)
https://imageshack.com/i/hlIxFayop(html2text提取的文本)
https://imageshack.com/i/hlHFBXvQp(相反,这是文本的最终打印,但索引行和多余的
\n
存在问题。)我已经尝试过在github上的本指南(https://github.com/Alir3z4/html2text/blob/master/docs/usage.md#available-options)中提供的其他设置,例如bypasse_tables,但没有成功。
有人可以告诉我在这种情况下如何使用html2text吗?
最佳答案
实际上,您根本不需要使用HTML2Text
。selenium
可以直接为您提供“文本”:
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("http://qr.ae/Rkplrt")
print(driver.find_element_by_class_name('inline_editor_content').text)
它打印帖子的内容:
The single line of code must be useful, not something meant to be confusing or obfuscating.
...
What examples have you created or encountered ?
关于python - 在Quora中解析包含代码的答案,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/33373597/