搜索引擎流量价值巨大,有不少人专门研究排名机制,利用搜索引擎漏洞作弊,寻求快速提高网站排名,进而获取更多的流量和利益,甚至有的网站优化公司专门提供作弊服务。搜索引擎为了杜绝这种情况,必须能过滤大量垃圾信息,不断完善搜索引擎算法,尽量防止作弊,做到给用户良好的体验。本文精灵儿工作室详细介绍常用的作弊与反作弊手法。
反作弊思路
搜索引擎反作弊思路大致划分为以下三种:“信任传播模型”、“不信任传播模型”和“异常发现模型”。
(1) 信任传播模型
筛选出部分完全值得信任的页面(即白名单),以这些白名单内的页面作为出发点,赋予白名单内的页面节点较高的信任度分值,其它页面是否作弊,要根据其和白名单内节点的链接关系来确定。白名单内节点通过链接关系将信任度分值向外扩散传播,以信任度分值作为是否作弊评判标准。
(2)不信任传播模型
和“信任传播模型”是相似的,赋予黑名单内页面节点不信任分值,通过链接关系将这种不信任关系传播出去,如果最后页面节点的不信任分值大于设定的阈值,则会被认为是作弊网页。
(3)异常发现模型
异常发现模型是高度抽象化的一个算法框架模型,其基本假设认为:作弊网页必然存在有异于正常网页的特征,这种特征有可能是内容方面的 ,也有可能是链接关系方面的。而制定具体算法的流程往往是先找到一些作弊的网页集合,分析出其异常特征有哪些,然后利用这些异常特征来识别作弊网页。
反作弊之人工干预
能够让搜索引擎人工干预的网站,肯定是流量偏向很大,并严重影响了广泛用户的体验,否则搜索引擎不会注意到。还有网站严重违法或者被人实证举报,也可能会出现人工干预,其他情况基本不可能。搜索引擎发现作弊,一般不会直接人工干预单个站点,而是升级完善反作弊算法,处理全网同类作弊站点。网上很多站长说自己网站被人工干预了,其实都是假的,人工干预远没那么频繁,对影响小的站点也管不过来。
下面介绍一些常用的作弊手法。
链接作弊
利用了搜索引擎排名的“链接分析”技术,通过操纵页面之间的链接关系,或者操纵页面之间的链接锚文字,以此来增加链接排序的得分。下面简述几种比较流行的作弊方法。
(1)链接农场(Link Farm)
“链接农场”构建了大量互相紧密链接的网页集合,期望能够利用搜索引擎链接算法的机制,通过大量相互链接来提高网页排名。“链接农场”内的页面链接密度极高,任意两个页面都可能存在互相指向链接。下图展示了一个精心构建的链接农场。
(2)Goolge 轰炸Google Bombing
“锚文字”是指向某个网页的链接描述文字,这些描述信息往往体现了被指向网页的内容主题,搜索引擎往往会在排序算法中利用这一点。
作弊者通过精心设置锚文字内容来诱导搜索引擎给予目标网页较高排名,一般作弊者设置的锚文字和目标网页内容没有什么关系。如有众多的网页内容锚文本“悲惨失败”指向同一个链接,这个目标链接页也许与悲惨失败没任何联系,但是最终结果是搜索引擎会理解成了强关系,用户只要搜索“悲惨链接”目标页将排名非常靠前。即当有大量包含特定关键词的链接指向某一个网页的时候,这个网页就算没提到这个关键词,排名也会非常好。
(3)交换友情链接
作弊者通过和其它网站交换链接,相互指向对方的网页页面,以此来增加网页排名。很多作弊者过分地使用此种手段,但是并不意味这使用这个手段的都是作弊网站,交换友情链接的做法也是正常网站的常规措施。
(4)购买链接
有些作弊者会通过购买链接的方法,即花钱让一些排名较高的网站的链接指向自己的网页,以此提高网站排名。
(5)购买过期域名
有些作弊者会购买刚刚过期的域名,因为有些过期域名本身的PageRank排名是很高的,通过购买域名可以获得高价值的外链。
(6)“门页”作弊(Doorway Pages)
“门页”本身不包含正文内容,而是由大量链接构成,而这些链接往往会指向同一网站内的页面,作弊者通过制造大量的“门页”来提升网站排名。
作弊定义是相对的,其实基于上面的“链接作弊”算不上是作弊,甚至是合理的手法,搜索引擎也基本无法应对。比如买过期的域名,这太合理了;链接轰炸,这是大量的自发行为,搜索引擎也没有处罚的理由。以前一些网站排名优化手法多基于链接作弊,现在搜索引擎逐渐弱化外链的作用。
精灵儿工作室提醒大家:把握一个原则,只要不过分,个体行为不会严重影响搜索引擎给用户呈现有价值的内容,一般搜索引擎不会也不好处罚。
页面隐藏作弊
“页面隐藏作弊”通过一些手段瞒骗搜索引擎蜘蛛,使得搜索引擎抓取的页面内容和用户点击查看到的页面内容不同,以这种方式来影响搜索引擎的搜索结果。常见的页面隐藏作弊方式有:
(1) IP地址隐形作弊(IP Cloaking)
网页拥有者在服务器端记载搜索引擎蜘蛛的IP地址列表,如果发现是搜索引擎在请求页面,则会推送给蜘蛛一个伪造的网页内容,而如果是其它IP地址,则会推送另外的网页内容,这个页面往往是有商业目的的营销页面。
(2) HTTP请求隐形作弊(User agent Cloaking)
客户端和服务器在获取网页页面的时候遵循HTTP协议,协议中有一项叫做“用户代理项”(user agent)。搜索引擎蜘蛛往往会在这一项有明显的特征(比如Google蜘蛛此项可能是:Googlebot/2.1),服务器如果判断是搜索引擎蜘蛛则会推送和用户看到的不同的页面内容。
上图是一个HTTP请求隐藏作弊的例子,作弊网站服务器推送给搜索引擎蜘蛛的页面是讲述减肥食品的内容,而推送给页面访问者的则是减肥产品销售推广页面。这样当用户在搜索减肥知识的时候就会直接访问减肥产品页面,从而达到作弊者的商业目的。
(3)网页重定向
作弊者使得搜索引擎索引某个页面内容,但是如果是用户访问则将页面重定向到一个新的页面。
(4)页面内容隐藏
通过一些特殊的HTML标签设置,将一部分内容显示为用户不可见,但是对于搜索引擎来说是可见的。比如设置网页字体前景色和背景色相同,或者在CSS中加入不可见层来隐藏页面内容。将隐藏的内容设置成一些与网页主题无关的热门搜索词,以此增加被用户访问到的概率。
::搜索引擎看到的是一个黑色背景下有一些白色的文字,这是不算作弊 的。但是用户看到的就是一片白色,不会看到里面的文字。就是搜索引擎至今不能识别一张图片的颜色。
内容作弊
内容作弊的目的是通过精心更改或者调控网页内容,使得网页在搜索引擎排名中获得与其网页不相称的高排名。搜索引擎排名一般包含了内容相似性和链接重要性计算,内容作弊主要针对搜索引擎排序算法中的内容相似性计算部分。通过故意加大目标词词频,或者在网页重要位置引入与网页内容无关的单词来影响搜索结果排名。
1. 常见内容作弊手段
比较常见的内容作弊方式包括:
(1)关键词重复
对于作弊者关心的目标关键词,大量重复设置在页面内容中。因为词频是搜索引擎相似度计算中必然会考虑的因子,关键词重复本质上是通过增高目标关键词的词频来影响搜索引擎内容相似性排名。
(2)无关查询词作弊
为了能够尽可能多吸引搜索流量,作弊者在页面内容中增加很多和页面主题无关的关键词,这本质上也是一种词频作弊,即将原先为0的单词词频增加到非0词频,以此吸引更多搜索引擎流量。
比如有的作弊者在网页的末端以不可见的方式加入一堆单词词表。也有作弊者在正文内容插入某些热门查询词。甚至有些页面内容是靠机器完全随机生成或者利用其他网页的页面内容片段随机拼凑而成的。
(3)图片alt标签文本作弊
alt标签原本是作为图片描述信息来使用的,一般不会在HTML页面显示,除非用户将鼠标放在图片上,但是搜索引擎会利用这个信息,所以有些作弊者将alt的内容以作弊词汇来填充,达到吸引更多搜索流量的目的。
(4)网页标题作弊
网页标题作为描述网页内容的综述性信息,对于判断一个网页所讲述的主题是非常重要的启发因素。所以搜索引擎在计算相似性得分时,往往会增加标题词汇的得分权重。作弊者利用这一点,将与网页主题无关的目标词重复放置在标题位置来获得好的排名。
(5)网页重要标签作弊
网页不像普通格式的文本,是带有HTML标签的,而有些HTML标签代表了强调内容重要性的含义,比如加粗标记<b> </b>,段落标题<h> </h>,字体大小标记等。
搜索引擎一般会利用这些信息进行排序,因为这些标记因素能够更好的体现网页的内容所表现的主题信息。作弊者通过在这些重要位置插入作弊关键词也能影响搜索引擎排名结果。
(6)网页元信息作弊
网页元信息比如网页内容描述区(meta description)和网页内容关键词区(meta keyword)是供制作网页的人对网页主题信息进行简短描述的,同以上情况类似,作弊者往往也会通过在其中插入作弊关键词来影响网页排名。
2. 内容农场(Content Farm)
内容农场运营者廉价雇佣大量自由职业者,支持他们付费写作,但是写作内容普遍质量低下,很多文章是通过拷贝稍加修改来完成的,但是他们会研究搜索引擎的热门搜索词等情况,并有机地将这些词汇添加到写作内容中。这样,普通搜索引擎用户在搜索时,会被吸引进入内容农场网站,通过大量低质量内容吸引流量,内容农场可以赚取广告费用。
与传统的内容作弊方式比,内容农场不采用机器拼接内容等机械方式,而是雇佣人员写作,但是由于写作者素质等原因决定了其发布内容质量低下,这种作弊方式搜索引擎往往难以给出是否作弊明确的界定,但是又严重影响搜索结果质量,所以是一种很难处理的作弊手法。
3. 桥页
桥页通常是用软件自动生成大量包含关键词的网页,然后从这些网页做自动转向到主页。目的是希望这些以不同关键词为目标的桥页在搜索引擎中得到好的排名。当用户点击搜索结果的时候,会自动转到主页。有的时候是在桥页上放上一个通往主页的链接,而不自动转向。
内容是网页的根本,搜索引擎不断的完善对内容的判断,现在绝大部分的内容作弊搜索引擎可以识别(比如垃圾文章、关键词堆砌、内容强相关性等),但还是有一定限制,比如搜索引擎暂无法评定文章是否原创。话说回来,“原创”只是一个模糊的概念,任何时候搜索引擎都无法自动对内容评定原创性,只能通过长期的多篇内容质量甚至人工申请等方式。想seo优化上首页的站点,绝对不要内容作弊,否则容易发现,被K站。
用户体验作弊
近年来,搜索引擎在不断优化完善,一直在追求最佳的用户体验,上面所有作弊手法严格来说都是内容作弊(链接、关键词等都是内容),最能提现用户体验好坏的是用户的行为表现,所以用户对网页的行为表现越来越受重视。用户的行为主要提现:用户点击率,跳出率,访问深度,停留时间等。
基于这种作弊手法者,会模拟大量真实用户(各地IP、不同MAC地址机器)在搜索引擎输入目标关键词,然后自动从百度搜索结果来找到目标作弊网页,点击进去(完成高点击量),长时间停留,多页面切换,多次回看,退出来看一点其他少量同行页面,甚至不看直接最后关闭。这给搜索引擎的结果就是:这个关键词和这个网址强相关,大量用认为是他们要找的页面,用户看了那么就说明很喜欢这个页面,用户没看或者少看其他页面,说明用户查找的问题被这个网页解决了,这种认定简直太棒了。
精灵儿工作室提醒大家:现在搜索引擎排名策略侧重网站内容和用户体验,这是网站排名优化的主要途径,做好这两方面,seo优化上首页不是问题。
百度对作弊的判定条件
(1)在网页源代码中任何位置,故意加入与网页内容不相关的关键词。
(2)在网页源代码中任何位置,故意大量重复某些关键词。即使与网页内容相关的关键词,故意重复也被视为作弊行为。
(3)在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、 超小字号文字、文字隐藏层、还是滥用图片ALT 等方法,都属于作弊行为。
(4)故意制造大量链接指向某一网址的行为。
(5)对同一个网址,让搜索引擎与用户访问到不同内容的网页(包括利用重定向等行为)。
(6)作弊行为的定义是针对网站而不是网页的。一个网站内即使只有一个网页作弊,该 网站也被认为是有作弊行为。
(7)有链接指向作弊网站的网站,负连带责任,也会被认为是作弊(但是,作弊网站上 链接指向的网站,不算作弊)。
Google 对作弊的判定条件
(1)使用隐藏文本或隐藏链接。
(2)采用隐藏真实内容或欺骗性重定向手段。
(3)向 Google 发送自动查询。
(4)使用无关用语加载网页。
(5)创建包含大量重复内容的多个网页、子域或域。
(6)创建安装病毒 (如,特洛伊木马)或其他有害软件的网页。
(7)采用专门针对搜索引擎制作的“桥页”,或采用如联属计划这类原创内容很少或几乎没有原创内容的“俗套”(cookie cutter) 方式。