我正在编写一个实用程序,该实用程序应访问动态页面的URL,检索内容,在各种嵌套的div标签中搜索特定的div标签并获取内容。

主要地,我正在寻找一些Java代码/库。 JavaScript或某些基于JavaScript的库也适用于我。

我从以下列表中入围-> JSoup,Jerry,JTidy(最新更新于2009-12-01)。哪个是最佳性能明智的?

编辑:改写问题。添加了入围的lib。

最佳答案

如果您想抓取页面并进行解析,建议您将jsdom与node一起使用。

安装nodeJS(假设Linux):

sudo apt-get install git
cd ~
git clone git://github.com/joyent/node
cd node
git checkout v0.6
mkdir ~/.local # If it doesn't already exist
./configure --prefix=~/.local
make
make install


还有一个Windows安装程序:http://nodejs.org/dist/v0.6.6/node-v0.6.6.msi

安装jsdom:

$ npm install jsdom


运行使用您的网址和相关选择器修改的脚本:

var jsdom = require('jsdom');

jsdom.env({
    html: 'url',
    done: function(errors, window) {
        console.log(window.document.getElementById('foo').textContent;
    }
});

关于java - 在DIV HTML中遍历或查找元素的最快方法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/8614066/

10-10 13:50