我正在尝试使用WWW :: Mechanize模块从页面上抓取表单及其字段。
由于网页的主体是使用document.write JS调用创建的,因此该模块中的form方法未找到我要查找的表单,并且对content方法的调用返回了页面源。我需要从document.write调用访问生成的HTML。
是否可以使用机械化模块?如果可以,我将如何去做?如果没有,还有其他Perl模块对我有帮助吗?谢谢!
最佳答案
我知道您支持Perl解决方案,但是您可以考虑使用Ruby。
我在Perl和Ruby中都完成了多个Web抓取脚本。
我发现Ruby比Perl做得更好。
由于您在Linux上运行,因此Ruby应该已经安装或应该是简单的安装(假设您被允许在服务器上进行安装)。
您可以将以下threeruby宝石用于自动化:
require 'watir-webdriver'
require 'selenium-webdriver'
require 'headless'
这些在网页抓取方面做得非常好。
关于javascript - 爬取动态表单WWW::Mechanize Perl,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/25165219/