我正在尝试使用docutils包将ReST转换为HTML。This answer简洁地使用docutilspublish_*便利函数在一个步骤中实现这一点。我想转换的其余文档有多个部分,我想在生成的HTML中分离这些部分。因此,我想分解这个过程:
将其余部分解析为节点树。
根据需要分离节点。
把我想要的节点转换成HTML。
这是第三步,我正在挣扎。下面是我的第一步和第二步:

from docutils import utils
from docutils.frontend import OptionParser
from docutils.parsers.rst import Parser

# preamble
rst = '*NB:* just an example.'   # will actually have many sections
path = 'some.url.com'
settings = OptionParser(components=(Parser,)).get_default_values()

# step 1
document = utils.new_document(path, settings)
Parser().parse(rst, document)

# step 2
for node in document:
   do_something_with(node)

# step 3: Help!
for node in filtered(document):
   print(convert_to_html(node))

我找到了HTMLTranslator类和Publisher类。它们看起来很相关,但我正在努力寻找好的文档。我应该如何实现convert_to_html功能?

最佳答案

我的问题是我试图在太低的级别上使用docutils包。它们为这类事情提供了一个接口:

from docutils.core import publish_doctree, publish_from_doctree

rst = '*NB:* just an example.'

# step 1
tree = publish_doctree(rst)

# step 2
# do something with the tree

# step 3
html = publish_from_doctree(tree, writer_name='html').decode()
print(html)

第一步现在简单多了。也就是说,我对结果还是有点不满意;我意识到我真正想要的是一个publish_node函数。如果你知道更好的方法,请贴出来。
我还应该注意到,我还没有成功地使用Python 3实现这一点。
真正的教训
我实际上想做的是从doctree中提取所有的侧边栏元素,这样它们就可以分别处理到文章的主体。这不是docutils想要解决的那种用例。因此没有publish_node功能。
一旦我意识到这一点,正确的方法就足够简单:
使用docutils生成HTML。
使用BeautifulSoup提取侧边栏元素。
这是完成任务的代码:
from docutils.core import publish_parts
from bs4 import BeautifulSoup

rst = get_rst_string_from_somewhere()

# get just the body of an HTML document
html = publish_parts(rst, writer_name='html')['html_body']
soup = BeautifulSoup(html, 'html.parser')

# docutils wraps the body in a div with the .document class
# we can just dispose of that div altogether
wrapper = soup.select('.document')[0]
wrapper.unwrap()

# knowing that docutils gives all sidebar elements the
# .sidebar class makes extracting those elements easy
sidebar = ''.join(tag.extract().prettify() for tag in soup.select('.sidebar'))

# leaving the non-sidebar elements as the document body
body = soup.prettify()

09-20 20:12