Closed. This question is off-topic。它当前不接受答案。
                            
                        
                    
                
                            
                                
                
                        
                            
                        
                    
                        
                            想改善这个问题吗? Update the question,所以它是on-topic,用于堆栈溢出。
                        
                        4年前关闭。
                                                                                            
                
        
我目前正在抓取该网站。

http://www.davidsassoonlibrary.com/index.php?action=book_details

但是,无论我搜索哪本书,URL都保持不变。
我对网页抓取完全陌生。
我已经使用Jsoup抓取了2页,并且也尝试为此网站做同样的事情。

任何人都有任何想法。请尽可能详细地解释。
谢谢

最佳答案

您应该使用发帖请求通过一些参数搜索和标题来抓取网页,请尝试以下代码:

Document doc = Jsoup.connect("http://www.davidsassoonlibrary.com/index.php?action=book_details")
  .data("search", "search")
  .data("title", "Test Cricket Lists")
  //fields which are being passed in post request.
  .userAgent("Mozilla")
  .post();
   System.out.println(doc); // will print html source


这是在控制台上的结果:

java - 搜寻网址不变的网站-LMLPHP

您可以使用Firebug来确定要调用的URL,方法GET或POS和参数。

java - 搜寻网址不变的网站-LMLPHP

07-24 09:49
查看更多