有人能帮我从http://www.quranexplorer.com/Hadith/English/Index.html中提取html数据吗。我发现一个服务可以通过一个简单的api支持数据提取,问题是我有大量需要处理的url。以下链接http://diffbot.com/dev/docs/
我需要创建一个遵循url的脚本,然后使用api生成html数据的json格式(该站点的api允许批量请求检查网站文档)
请注意,diffbot每月只允许10000个免费请求,所以我需要一种方法来保存进度,并能够在我离开的地方获取。
下面是我使用php创建的一个示例。

$token = "dfoidjhku";// example token
$url = "http://www.quranexplorer.com/Hadith/English/Hadith/bukhari/001.001.006.html";
$geturl="http://www.diffbot.com/api/article?tags=1&token=".$token."&url=".$url;
$json = file_get_contents($geturl);
$data = json_decode($json, TRUE);
echo $article_title=$data['title'];
echo $article_author=$data['author'];
echo $article_date=$data['date'];
echo nl2br($article_text=$data['text']);
$article_tags=$data['tags'];
foreach($article_tags as $result) {
    echo $result, '<br>';
}

我不介意这个工具是javascript还是php,我只需要一种方法来获取json格式的html数据。

最佳答案

我是Diffbot的约翰。注意:不是一个开发人员,但知道足够多的写黑代码做简单的事情。
您有一个链接列表——遍历这些链接应该很简单,为每个链接都向我们发出一个调用。
这里有一个Python脚本可以做到这一点:https://gist.github.com/johndavi/5545375
我在Sublime Text中使用了一个快速搜索regex从JS文件中提取链接。
要截短这个,只需剪掉一些链接,然后运行它。这需要一段时间,因为我没有使用批处理API。
如果你需要改进或改变这一点,最好直接找一个更强大的开发人员。Diffbot是一个开发友好的工具。

关于php - 使用Diffbot提取HTML内容,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16427094/

10-10 00:34