Google在解析网络时如何找到相关内容?

例如,假设Google使用PHP native DOM库解析内容。他们将使用什么方法在网页上找到最相关的内容?

我的想法是,它将搜索所有段落,并按每个段落的长度排序,然后从可能的搜索字符串和查询参数中得出每个段落的相关性百分比。

假设我们有以下网址:

http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html

现在,从该URL可以算出HTML文件名的相关性很高,因此,我将看到该字符串与页面中所有段落相比有多近!

共享页面时,Facebook共享就是一个很好的例子。 Facebook快速使链接成为僵尸,并带回图像,内容等。

我当时认为某种计算方法是最好的,根据周围的元素和元数据计算出相关性百分比。

是否有任何有关内容解析最佳实​​践的书籍/信息,涵盖了如何从网站获取最佳内容,可能讨论的算法或深入的答复?

我想到的一些想法是:
  • 通过纯文本长度
  • 查找所有段落和顺序
  • 以某种方式找到div容器的宽度和高度,并按(W + H)排序-@Benoit
  • 在段落
  • 中检查元关键字,标题,描述并检查相关性
  • 按最大查找所有图像标签和顺序,以及距主要段落
  • 的节点长度
  • 检查对象数据(例如视频),并从最大的段落/内容div中计数节点数
  • 解析出
  • 的前几页的相似之处


    我需要此信息的原因:

    我正在建立一个网站,网站管理员在该网站上向我们发送链接,然后列出他们的页面,但是我希望网站管理员提交一个链接,然后我去抓取该页面以查找以下信息。
  • 图像(如果适用)
  • 最佳文本片段中的
  • 用于我们的搜索引擎的关键字(堆栈溢出样式)
  • 元数据关键字,描述,所有图像,更改日志(用于审核和管理)

  • 希望你们能理解这不是针对搜索引擎的,而是搜索引擎处理内容发现的方式与我需要的内容相同。

    我不是在问商业 secret ,而是在问你个人对此的处理方式是什么。

    最佳答案

    这是一个非常笼统的问题,但却是一个很好的话题!绝对赞成:)
    但是,我对到目前为止提供的答案不满意,因此我决定为此写一个相当冗长的答案。

    我不满意的原因是答案基本上都是正确的(我特别喜欢kovshenin(+1)的答案,这与图论非常相关...),但是所有答案在某些因素上要么太具体,要么太具体了。一般的。

    这就像问如何烤蛋糕,您会得到以下答案:

  • 您做一个蛋糕,然后放入烤箱。
  • 您肯定需要放糖!
  • 什么是蛋糕?
  • 蛋糕是骗人的!

  • 您不会满意的,因为您不知道什么是好蛋糕。
    当然,有很多或目标。

    当然,谷歌是最重要的参与者,但是根据使用情况,搜索引擎可能会包含非常不同的因素或将它们的权重不同。

    例如,用于发现新的独立音乐艺术家的搜索引擎可能会对您造成恶意
    艺术家网站,其中包含许多外部链接。

    主流搜索引擎可能会采取完全相反的方式来为您提供“相关结果”。

    Google已经发布了200多个因素(如上所述)。
    因此,网站管理员知道如何优化其网站。
    公众可能还不知道的很多事情(以Google为例)。

    但是,在非常讨厌和抽象的术语SEO优化中,通常可以将重要的分解成两类:
  • 答案与问题的吻合程度如何?或者:
    页面内容与搜索字词的匹配程度如何?
  • 答案的受欢迎程度/好吗?或者:
    什么是pagerank?

  • 在这两种情况下,重要的是我不是在谈论整个网站或整个域,而是在谈论具有唯一URL的单个页面。

    同样重要的是,pagerank不能代表所有因素,而不能代表Google分类为Popularity的那些因素。好的,我的意思是其他与人气无关的因素。

    对于Google,官方声明是他们希望向用户提供相关结果。
    这意味着所有算法都将针对用户的需求进行优化。

    因此,经过漫长的介绍(很高兴您仍然与我在一起...),我将为您提供一些我认为非常重要的因素(目前):

    类别1(答案与问题的匹配程度如何?

    您会注意到,很多内容归结于文档的结构!
  • 该页面主要处理确切的问题。

  • 含义:疑问词出现在页面标题文本或标题段落段落中。
    这些关键字的位置也是如此。页面越早越好。
    也经常重复(如果不是太多,则以关键字填充的名称重复)。
  • 整个网站都涉及该主题(关键字出现在域/子域中)
  • 单词是此页面中的重要主题(内部链接 anchor 文本跳到关键字的位置或 anchor 文本/链接文本包含关键字)。
  • 如果外部链接使用链接文本中的关键字链接到此页面,则也是如此

    类别2(页面的重要性/受欢迎程度?)

    您会注意到,并非所有因素都指向这个确切的目标。
    包括某些内容(尤其是Google的内容)只是为了增强页面质量,
    那...好...那是当之无愧的。
  • 内容为王!

  • 网络其余部分中找不到或只有很少的独特内容的存在促进了这种发展。
    这主要是通过网站上通常很少使用的单词(重要单词)的无序组合来衡量的。但是,还有许多更复杂的方法。
  • 新近度-越新越好
  • 历史更改(过去更新页面的频率。更改很好。)
  • 外部链接流行度(有多少个链接?)

  • 如果一个页面链接了另一个页面,则该页面本身具有较高的排名,则该链接的值(value)更高。
  • 外部链接多样性

  • 基本上来自不同根域的链接,但其他因素也起作用。
    诸如站点的分隔程度之类的因素是链接站点的Web服务器在地理上(根据其ip地址)。
  • 信任等级

  • 例如,如果具有删除内容的大型,受信任的已建立站点链接到您,则您将获得信任等级。
    这就是为什么The New York Times的链接比某些陌生的新网站更有值(value)的原因,即使它的PageRank更高!
  • 域信任

  • 如果您的域名是受信任的,则整个网站都可以增强您的内容。
    这里有很多不同的因素。当然,从受信任的关系到您的域的链接,但是如果您与重要网站位于同一数据中心,则该链接甚至会很好。
  • 中的主题特定链接。

  • 如果可以解决某个主题的网站链接到您,并且查询也可以解决该主题,那么很好。
  • 链接随时间的分布。

  • 如果您在短时间内获得了很多链接,那么这对您现在和以后的将来都是有好处的。但是后来还不太好。
    如果您缓慢稳定地赚取链接,那么对“永恒”的内容将大有裨益。
  • 来自限制域的链接

  • 来自.gov域的链接非常有值(value)。
  • 用户点击行为

  • 您的搜索结果的点击率是多少?
  • 在网站上花费的时间

  • Google Analytics(分析)跟踪等。如果用户在打开您的结果后单击了返回还是单击了另一个结果,也会进行跟踪。
  • 收集的用户数据

  • 投票,评分等,Gmail中的引用等。

    现在,我将介绍第三个类别,上面的一两个点会归入该类别,但我没有想到...类别为:

    **您的网站总体上有多重要/好吗**

    您所有页面的排名将取决于您网站的质量

    影响因素包括:
  • 良好的网站架构(易于导航,结构化。站点 map 等)。
  • 如何建立(现有的长期域名值(value)更高)。
  • 托管者信息(您附近还托管其他哪些网站?
  • 您的全名的搜索频率。

  • 最后但并非最不重要的一点,我想说的是,这些语义因素中的许多因素都可以通过语义技术来丰富,并且可以引入新的因素。

    例如,某人可能会搜索“泰坦尼克号”,而您拥有一个有关冰山的网站……可以将其设置为可以反射(reflect)出来的相关性。

    新引入的语义标识符。例如OWL标签在将来可能会产生巨大的影响。

    例如,有关电影《泰坦尼克号》的博客可以在此页面上添加一个标志,使其内容与关于同一部电影的Wikipedia文章相同。

    这种链接目前正在大量开发和建立中,没有人知道如何使用它。

    也许重复的内容被过滤掉了,而只显示了最重要的相同内容?或许反过来呢?您会看到很多与您的查询相匹配的页面。即使它们不包含您的关键字?

    Google甚至根据搜索查询的主题应用不同相关性的因素!

    关于php - 搜索引擎如何找到相关内容?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3967076/

    10-12 21:46
    查看更多