python - Python Web抓取-下载文件并将所有数据存储在xml中

我希望使用Python从大学的Intranet抓取一些数据并下载所有研究论文。我之前看过Python抓取工具，但我自己还没有真正做过任何事情，我确定我在某处读到了Python抓取框架，应该使用吗？

所以从本质上讲，这是我需要抓的：

s
描述
领域
然后下载文件并使用纸张名称重命名。

然后，我将所有这些内容都放入xml或数据库（很可能是xml）中，然后在以后开发接口等。

这可行吗？关于我应该从哪里开始的任何想法？

提前致谢，
卢克·詹克斯

编辑：框架是Scrapy

编辑：原来我今天差点杀死了服务器，所以一位讲师为我从网络团队那里获取了副本...谢谢！

最佳答案

Scrapy是一个很好的框架，并且也具有非常好的documentation。您应该从这里开始。

如果您不认识XPaths，建议您学习打算使用Scrapy的内容（它们非常简单！）。 XPaths帮助您“定位”要提取的html中的特定元素。

Scrapy已经有一个内置的命令行参数可以导出到xml，csv等，即scrapy crawl <spidername> -o <filename> -t xml

Mechanize是轻松编写刮板的另一种不错的选择。

关于python - Python Web抓取-下载文件并将所有数据存储在xml中，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/13038012/