我正在执行一些Web数据分类任务,并且在考虑是否可以获取html元素的坐标,因为它们会出现在Web浏览器中,而无需考虑网页中引用的任何CSS或javascript。

我的编程语言是c++ ,需要几百万页的结果,因此必须快速。我知道有一个Microsoft COM组件可以在Web浏览器控件中呈现页面,然后可以查询不同html标签的位置。但这不适用于我的情况,因为它首先渲染整个页面,这会花费很多时间。

因此,正如我发现的那样,可以使用开源布局引擎WebKit,Gecko。但这是一段巨大的代码,我需要有人将我引导到正确的类或正确的模块上,以进行研究或有人以前做过的任何先前/类似的工作。另外,如果我想自定义现有代码以与多个线程一起使用以使其更快,请让我知道你们认为是一个不错的选择。
谢谢

最佳答案

通常,您会发现不同的页面呈现引擎确实以自己的方式呈现html,结果也会有所不同。

问题是,如果您坚持使用任何具体的浏览器引擎,那么您要做的就是以某种方式将该引擎引入项目中,并使用引擎的界面来检索这些坐标。但是,这只是一项艰巨的任务,仅因为您必须阅读大量文档并浏览成千上万个文件。

我认为正确的方法是将此任务张贴在某个位置,该位置特定于您选择的页面呈现引擎。 (壁虎/ webkit / ...)

如果您喜欢坚持某些特定于MS的内容,可以猜想它会更简单,但无法提供您想要的类名或代码块之类的帮助。在这种情况下,可能有人可以指导您。

关于c++ - 哪个布局引擎可用于查找网页上html元素的坐标?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/2705837/

10-12 00:10
查看更多