Closed. This question needs to be more focused。它当前不接受答案。
想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
4年前关闭。
我正在尝试从此页面抓取表格:
http://data.eastmoney.com/xg/xg/
有18个单独的页面,并且每个页面的URL都不会更改。
我将如何尝试抓取这些数据?
我通常使用BeautifulSoup抓取HTML页面,但是在这种情况下,数据不会出现在HTML代码中,因此我无法在URL上使用BeautifulSoup来获取所需的数据。
任何建议将不胜感激。
想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
4年前关闭。
我正在尝试从此页面抓取表格:
http://data.eastmoney.com/xg/xg/
有18个单独的页面,并且每个页面的URL都不会更改。
我将如何尝试抓取这些数据?
我通常使用BeautifulSoup抓取HTML页面,但是在这种情况下,数据不会出现在HTML代码中,因此我无法在URL上使用BeautifulSoup来获取所需的数据。
任何建议将不胜感激。
最佳答案
在查看该页面的源代码之后,它只是对该URL进行了调用,似乎正在返回一个csv类型的文件,您可以弄清楚该如何处理。http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=NS&sty=NSST&st=12&sr=-1&p=1&ps=50&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]}&stat=1&rt=47876809
最重要的是您不需要刮擦这张桌子
看一下&ps=50
的值,这是限制,将其设置为&ps=5000
之类的值,您无需在页面之间进行切换。&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]}
位是jsonp回调吗?