我在使用Web :: Scraper提取javascript时遇到问题。以下是我的测试脚本:

#!/usr/bin/perl
use Modern::Perl;
use Web::Scraper;
use Data::Dumper;

my $contents = do { local $/; <DATA> };
my $scraper = scraper { process "//script", "scripts[]" => 'TEXT'; };
my $res = $scraper->scrape($contents);

say Dumper $res;

exit;

__DATA__
<html><head><title>hello</title></head>
<body>
  <script type="text/javascript">
    var dummy = {}
  </script>
</body>
</html>


和我的输出:

$VAR1 = {
          'scripts' => [
                         ''
                       ]
        };


在我看来,我正在找到脚本标签,但没有保存标签之间的内容。

最佳答案

在深入研究xpath之后,我找到了解决方案。

从以下位置更改刮板线:

my $scraper = scraper { process "//script", "scripts[]" => 'TEXT'; };


至:

my $scraper = scraper { process "//script" => 'scripts[]' =>
                    scraper { process '//text()', 'script'=>'TEXT'} };


输出javascript代码:

$VAR1 = {
          'scripts' => [
                         {
                           'script' => '
    var dummy = {}
  '
                         }
                       ]
        };


我不认为该流程简明扼要,但可以正常工作。

09-25 17:39