本文介绍了Facebook如何解析博客点.com打开的图表属性的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
Bloot.com的一些页面不包含开放的图形标记,但Facebook对象调试器仍然正确地解析开放的图形属性。如何获取打开的图形信息?
例如,我在http://sushiwens.blogspot.com/源代码中没有看到任何开放的图形元标记。但Facebookhttps://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Fsushiwens.blogspot.com%2F
可以正确解析我需要在python中实现类似于开放图形解析函数的东西,所以我需要知道如何实现它。
推荐答案
我没有确切的消息来源来确定Facebook的表现,但this site可能会对您有所帮助。
我用他的想法开发了一个用python语言编写的解析器。如果可以帮助您,则可以使用here。
如果我尝试总结一个不使用og标记获取数据的策略:
- 标题:
- 搜索标题标签
- 在正文中搜索H1
- 在正文中搜索%2...
- 说明:
- 在<;meta name=";Description;>;中搜索
- 在正文(例如第一个<;p>;)中搜索可见文本
- 搜索<;meta name=";Twitter:Description";>;是一种解决方案,但我不这样做:通常描述很糟糕,更多地与Twitter内容相关,而不是链接的真实内容。
- 域名:
- 搜索<;link rel=";规范>;
- 搜索日志:URL
- 但我做得更简单:从目标链接提取域(在python中:
urlparse(url).netloc
- 最后但并非最不重要:图片:
- 搜索<;link rel=";Image_src";href=";Image URL;/&>
- 分析目标链接html中的所有<;img&>标记和";排序(&q;):
- 小图片:一维
- 不良比例图像:剩余的比例最长边/最短边>;3
- 好的形象:剩下的
- 然后在好的图像中选择最大的图像。如果没有好的形象:最大的不良率。否则:最大的是小图片。(最大=最大宽度x高度)
- 获取所有图像可能会很耗时!人们可以通过图像的第一个字节获得尺寸,但这是另一回事(见第二个链接)
这篇关于Facebook如何解析博客点.com打开的图表属性的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!