有像 DOM 这样的标准方法来选择性地解析一个 html 页面,但我想知道爬虫(从小到大)如何检测要分析的主要文本在哪里?

将被分析以捕获其关键字的正文与菜单、侧边栏、页脚等混合在一起。爬虫如何知道从菜单和侧边部分跳过关键字?

我正在开发一个小型 PHP 项目,以从各种 HTML 页面中捕获关键字,但我不知道如何避免从侧面内容中捕获关键字。任何人都可以描述或至少给我一个提示如何区分 HTML 页面中的主要内容和其他内容吗?

最佳答案

侧边栏、菜单和页脚通常在整个站点的每个页面上重复出现。每个页面的实际内容通常都是独一无二的。您可以将其用作区分实际内容的指南。

爬虫还使用复杂的算法来分析页面上的文本以确定其作为内容的权重,并且他们倾向于不分享他们的 secret 。

没有快速简便的方法,爬虫开发人员必须想出自己的创新方法,并共同采用这些方法来获得页面内容的整体图。

关于php - 爬虫如何解析网页中的文本?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10567613/

10-09 18:52