我正在编写一个实用程序,该实用程序应访问动态页面的URL,检索内容,在各种嵌套的div标签中搜索特定的div标签并获取内容。
主要地,我正在寻找一些Java代码/库。 JavaScript或某些基于JavaScript的库也适用于我。
我从以下列表中入围-> JSoup,Jerry,JTidy(最新更新于2009-12-01)。哪个是最佳性能明智的?
编辑:改写问题。添加了入围的lib。
最佳答案
如果您想抓取页面并进行解析,建议您将jsdom与node一起使用。
安装nodeJS(假设Linux):
sudo apt-get install git
cd ~
git clone git://github.com/joyent/node
cd node
git checkout v0.6
mkdir ~/.local # If it doesn't already exist
./configure --prefix=~/.local
make
make install
还有一个Windows安装程序:http://nodejs.org/dist/v0.6.6/node-v0.6.6.msi
安装jsdom:
$ npm install jsdom
运行使用您的网址和相关选择器修改的脚本:
var jsdom = require('jsdom');
jsdom.env({
html: 'url',
done: function(errors, window) {
console.log(window.document.getElementById('foo').textContent;
}
});
关于java - 在DIV HTML中遍历或查找元素的最快方法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/8614066/