Closed. This question needs to be more focused。它当前不接受答案。
                        
                    
                
            
        
            
        
                
                    
                
            
                
                    想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
                
                    4年前关闭。
            
        

    

我正在尝试从此页面抓取表格:
http://data.eastmoney.com/xg/xg/
有18个单独的页面,并且每个页面的URL都不会更改。

我将如何尝试抓取这些数据?
我通常使用BeautifulSoup抓取HTML页面,但是在这种情况下,数据不会出现在HTML代码中,因此我无法在URL上使用BeautifulSoup来获取所需的数据。

任何建议将不胜感激。

最佳答案

在查看该页面的源代码之后,它只是对该URL进行了调用,似乎正在返回一个csv类型的文件,您可以弄清楚该如何处理。

http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=NS&sty=NSST&st=12&sr=-1&p=1&ps=50&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]}&stat=1&rt=47876809

最重要的是您不需要刮擦这张桌子

看一下&ps=50的值,这是限制,将其设置为&ps=5000之类的值,您无需在页面之间进行切换。

&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]}位是jsonp回调吗?

07-24 09:50
查看更多