我希望使用Python从大学的Intranet抓取一些数据并下载所有研究论文。我之前看过Python抓取工具,但我自己还没有真正做过任何事情,我确定我在某处读到了Python抓取框架,应该使用吗?

所以从本质上讲,这是我需要抓的:


s
描述
领域
然后下载文件并使用纸张名称重命名。


然后,我将所有这些内容都放入xml或数据库(很可能是xml)中,然后在以后开发接口等。

这可行吗?关于我应该从哪里开始的任何想法?

提前致谢,
卢克·詹克斯

编辑:框架是Scrapy

编辑:原来我今天差点杀死了服务器,所以一位讲师为我从网络团队那里获取了副本...谢谢!

最佳答案

Scrapy是一个很好的框架,并且也具有非常好的documentation。您应该从这里开始。

如果您不认识XPaths,建议您学习打算使用Scrapy的内容(它们非常简单!)。 XPaths帮助您“定位”要提取的html中的特定元素。

Scrapy已经有一个内置的命令行参数可以导出到xml,csv等,即scrapy crawl <spidername> -o <filename> -t xml

Mechanize是轻松编写刮板的另一种不错的选择。

关于python - Python Web抓取-下载文件并将所有数据存储在xml中,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13038012/

10-11 23:04
查看更多