最近,我不得不使用开放源代码项目crawler4j来抓取一些网站。但是,crawler4j没有提供任何使用的api。现在,我遇到了一个问题,即我如何解析具有crawler4j提供的功能和类的html并查找像我们对jquery所做的元素

最佳答案

这比较简单。以下方法对我有用。

MyCrawler.java中:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
...
public void visit(Page page) {
...
if (page.getParseData() instanceof HtmlParseData) {
                    HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
                    String html = htmlParseData.getHtml();
                    Document doc = Jsoup.parseBodyFragment(html);
...

10-08 17:43