Closed. This question is off-topic。它当前不接受答案。
想改善这个问题吗? Update the question,所以它是on-topic,用于堆栈溢出。
4年前关闭。
我目前正在抓取该网站。
http://www.davidsassoonlibrary.com/index.php?action=book_details
但是,无论我搜索哪本书,URL都保持不变。
我对网页抓取完全陌生。
我已经使用Jsoup抓取了2页,并且也尝试为此网站做同样的事情。
任何人都有任何想法。请尽可能详细地解释。
谢谢
这是在控制台上的结果:
![java - 搜寻网址不变的网站-LMLPHP java - 搜寻网址不变的网站-LMLPHP]()
您可以使用Firebug来确定要调用的URL,方法GET或POS和参数。
![java - 搜寻网址不变的网站-LMLPHP java - 搜寻网址不变的网站-LMLPHP]()
想改善这个问题吗? Update the question,所以它是on-topic,用于堆栈溢出。
4年前关闭。
我目前正在抓取该网站。
http://www.davidsassoonlibrary.com/index.php?action=book_details
但是,无论我搜索哪本书,URL都保持不变。
我对网页抓取完全陌生。
我已经使用Jsoup抓取了2页,并且也尝试为此网站做同样的事情。
任何人都有任何想法。请尽可能详细地解释。
谢谢
最佳答案
您应该使用发帖请求通过一些参数搜索和标题来抓取网页,请尝试以下代码:
Document doc = Jsoup.connect("http://www.davidsassoonlibrary.com/index.php?action=book_details")
.data("search", "search")
.data("title", "Test Cricket Lists")
//fields which are being passed in post request.
.userAgent("Mozilla")
.post();
System.out.println(doc); // will print html source
这是在控制台上的结果:
您可以使用Firebug来确定要调用的URL,方法GET或POS和参数。