我希望使用Python从大学的Intranet抓取一些数据并下载所有研究论文。我之前看过Python抓取工具,但我自己还没有真正做过任何事情,我确定我在某处读到了Python抓取框架,应该使用吗?
所以从本质上讲,这是我需要抓的:
s
描述
领域
然后下载文件并使用纸张名称重命名。
然后,我将所有这些内容都放入xml或数据库(很可能是xml)中,然后在以后开发接口等。
这可行吗?关于我应该从哪里开始的任何想法?
提前致谢,
卢克·詹克斯
编辑:框架是Scrapy
编辑:原来我今天差点杀死了服务器,所以一位讲师为我从网络团队那里获取了副本...谢谢!
最佳答案
Scrapy是一个很好的框架,并且也具有非常好的documentation。您应该从这里开始。
如果您不认识XPaths,建议您学习打算使用Scrapy的内容(它们非常简单!)。 XPaths帮助您“定位”要提取的html中的特定元素。
Scrapy已经有一个内置的命令行参数可以导出到xml,csv等,即scrapy crawl <spidername> -o <filename> -t xml
Mechanize是轻松编写刮板的另一种不错的选择。
关于python - Python Web抓取-下载文件并将所有数据存储在xml中,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13038012/