As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be supported by facts, references, or expertise, but this question will likely solicit debate, arguments, polling, or extended discussion. If you feel that this question can be improved and possibly reopened, visit the help center作为指导。
                            
                        
                    
                
                                6年前关闭。
            
                    
我正在做一个学校项目,我想构建一个Andriod应用程序,但在此之前我想从220.225.101.27/MPLogin/eSewa/VehicleSearch.aspx抓取一些数据并保存在数据库中。当您进入该站点时,您必须填写车辆登记号,然后它将显示有关车辆的所有详细信息。我不需要完整的详细信息,而只需要车主的姓名。我想获得所有组合的详细信息车辆登记号码。

我做了一些谷歌搜索发现了一些python库。


美丽汤
cra草
机械化


我是python的新手。如果我混用了一些术语,请忽略。我只是想知道:


我应该使用哪个库?哪个最好?
我对填写html表单然后通过python获取详细信息应该了解什么?
要成功完成所有这些工作,我首先应该知道什么?
我需要使用哪些python模块?
如何将这些数据保存在数据库或某种Excel文件中?
该网站位于.net中会引起任何问题吗?


我已阅读Beautifulsoup的文档,并已使用它成功打印了googlenews标题文本。但这是基本的。填写html表单然后获取详细信息很困难。

我知道这是一个很长的问题,但是我想自己学习。如果有人可以逐步指导我,那将非常好。

最佳答案

由于您还没有提供任何代码,并且您基本上是在寻求建议,因此,我仅提供您的见解。

您提到的所有事实均指向scrapy。这是一个非常强大的网络抓取工具。

基本上,您应该执行以下步骤来实现您的任务:


细读教程:herehere
阅读有关xpath语言的信息
探索您的浏览器开发者工具,例如firebug(或对于chrome:ctrl + shift + j)
阅读有关使用RequestFormRequest的信息
通过关于scrapy Items的文档
阅读有关存储报废数据的信息:ExportersPipelines


说到专门解析该网站,它具有一个基本的html表单,可以由scrapy的FormRequestFormRequest.from_response以编程方式提交。然后,您可以使用管道将报废的数据存储在数据库或csv等中。

回来问您是否有任何特定的问题(适合q / a)。

希望对您有所帮助。

关于python - 如何填写HTML表格并从网站上抓取? ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16906275/

10-10 17:01
查看更多