本文介绍了Facebook如何解析博客点.com打开的图表属性的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

Bloot.com的一些页面不包含开放的图形标记,但Facebook对象调试器仍然正确地解析开放的图形属性。如何获取打开的图形信息?

例如,我在http://sushiwens.blogspot.com/源代码中没有看到任何开放的图形元标记。但Facebookhttps://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Fsushiwens.blogspot.com%2F

可以正确解析

我需要在python中实现类似于开放图形解析函数的东西,所以我需要知道如何实现它。

推荐答案

我没有确切的消息来源来确定Facebook的表现,但this site可能会对您有所帮助。
我用他的想法开发了一个用python语言编写的解析器。如果可以帮助您,则可以使用here

如果我尝试总结一个不使用og标记获取数据的策略:

  • 标题
    • 搜索标题标签
    • 在正文中搜索H1
    • 在正文中搜索%2...
  • 说明
    • 在<;meta name=";Description;>;中搜索
    • 在正文(例如第一个<;p>;)中搜索可见文本
    • 搜索<;meta name=";Twitter:Description";>;是一种解决方案,但我不这样做:通常描述很糟糕,更多地与Twitter内容相关,而不是链接的真实内容。
  • 域名
    • 搜索<;link rel=";规范>;
    • 搜索日志:URL
    • 但我做得更简单:从目标链接提取域(在python中:urlparse(url).netloc
  • 最后但并非最不重要:图片
    • 搜索<;link rel=";Image_src";href=";Image URL;/&>
    • 分析目标链接html中的所有<;img&>标记和";排序(&q;):
      • 小图片:一维
      • 不良比例图像:剩余的比例最长边/最短边>;3
      • 好的形象:剩下的
    • 然后在好的图像中选择最大的图像。如果没有好的形象:最大的不良率。否则:最大的是小图片。(最大=最大宽度x高度)
    • 获取所有图像可能会很耗时!人们可以通过图像的第一个字节获得尺寸,但这是另一回事(见第二个链接)

这篇关于Facebook如何解析博客点.com打开的图表属性的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

10-26 22:05