我有一个旧工具,(一位前同事)几年前与Jaxer一起写的,我想替换/重写。
Jaxer是一个(无用的)服务器端框架,它基于无头的Mozilla / Gecko-Browser,允许您使用JavaScript和DOM服务器端。
由于Jaxer被遗弃了,并且由于在新计算机上安装和运行带有Jaxer的Aptana Studio 1.5时遇到了很大的问题,因此我正在寻找可以作为新版本基础的库/框架/东西。
该工具仅在Aptana Studio(Jaxer的IDE)内部本地运行,决不打算成为实际的Web应用程序。它通过将页面逐页加载到服务器端Mozilla中来搜寻我们的客户网站。为此,它使用jQuery和预定义的CSS选择器在菜单中查找链接,并从页面中解析其他信息。最终结果基本上是一个美化的站点地图。
我想尽可能保留这种操作方式,并继续使用jQuery / JavaScript / DOM加载和解析/访问页面,但是可以将其包装在基于另一种语言(例如Java)的框架中。我考虑自己写一些基于Gecko的东西,但这似乎有点过头,所以我愿意提出其他建议。
最佳答案
就HTML爬网/解析而言:
http://ccil.org/~cowan/XML/tagsoup/
要么
http://jsoup.org/