主动推送的目的是能够把我们高质量内容推送给百度,但是首先你得有一个属于你自己的网站,在百度站长进行验证通过之后,才有资格推送百度sitemap。

  百度站长平台为未使用百度统计的站点提供三种验证方式:文件验证、html标签验证、CNAME验证

    1.文件验证:您需要下载验证文件,将文件上传至您的服务器,放置于域名根目录下。
    2.html标签验证:将html标签添加至网站首页html代码的<head>标签与</head>标签之间。
    3.CNAME验证:您需要登录域名提供商或托管服务提供商的网站,添加新的DNS记录。  

  我选择的是第一种方式,详细资料在http://zhanzhang.baidu.com/college/courseinfo?id=267&page=1这是百度官方给出的课件。

  验证通过之后选择链接提交方式,我选择了主动推送和sitemap两种,当然最快的是推送方式,主动推送,最为快速的提交方式,建议您将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度收录。

  公司用的框架是Play Framework 是一个纯 Java 的框架,所以我们选择post推送,然后我们看一下百度(baidu)给我们提供的推送接口如下:

  POST /urls?site=www.caizhuojie.com&token=edk7ychrEZP9pDQD HTTP/1.1
  User-Agent: curl/7.12.1 
  Host: data.zz.baidu.com 
  Content-Length: 83

  http://www.example.com/1.html
  http://www.example.com/2.html

进入我们主题,实现post 推送代码如下:

  

 package jobs;

 import java.text.SimpleDateFormat;
 import java.util.Calendar;
 import java.util.Date;
 import java.util.List;
 import com.google.gson.JsonElement;
 import com.google.gson.JsonObject;
 import models.Game;
 import models.enums.Bool;
 import play.Play;
 import play.jobs.Job;
 import play.jobs.On;
 import play.libs.WS;
 import play.libs.WS.HttpResponse;
 import play.libs.WS.WSRequest;

 //这里是框架中自带的定时任务,要创建一个sitemap,只需要简单地继承play.jobs.Job类就可以设置每天晚上23:00启动一次
 @On("0 0 23 * * ?")
 public class SiteMap extends Job {

     public static String url = "http://data.zz.baidu.com/urls?site=www.caizhuojie.com&token=******"; // token这边百度提供

     public void doJob() throws Exception {

         // 这里是框架中的一个判断,在正式环境中才会运行,在测试环境中不会触发,以保证不会重发推送。
         if ("prod".equals(Play.id)) {
             Calendar calendar = Calendar.getInstance();
             Date currentData = calendar.getTime();
             calendar.add(Calendar.DAY_OF_MONTH, -1);
             Date lastDate = calendar.getTime();

             // 查询出数据库中的游戏数据id拼接起来,这就是我们要推送的链接,(注意拼接最后加上 换行‘\n’)
             List<String> newResult = Game.find(
                     "SELECT CONCAT('http://www.yiyoushuo.com/g',game.id,'\n') FROM Game AS game "//
                             + "where game.issueStatus=? and game.adoptTime > ? and game.adoptTime < ?",
                     Bool.TRUE, lastDate, currentData).fetch();
             // 查询中加入条件,查出当前时间至前一天此时时间所产生的新游戏id,满足每天更新推送。

             StringBuilder sb = new StringBuilder();
             for (String string : newResult) {
                 sb.append(string);
             }

             // 下面就是在play framework框架下的post请求。
             WSRequest request = WS.url(url);
             request.body = sb.toString();
             HttpResponse response = request.post();
             JsonElement json = response.getJson();
             JsonObject asJsonObject = json.getAsJsonObject();
             JsonElement success = asJsonObject.get("success");
             JsonElement remain = asJsonObject.get("remain");
             System.out.println(
                     "响应:" + response.getStatus() + "success:" + success.getAsInt() + "remain:" + remain.getAsInt());

         }
     }
 }

  成功则会返回 百度推送-sitemap-使用playframework框架实现-java-LMLPHP

在此附上可能出现的异常情况的返回码信息,供调试用:

200  无使用方式错误,需要进一步观察返回的内容是否正确
400  必选参数未提供
405  不支持的请求方式,我们只支持POST方式提交数据
411  HTTP头中缺少Content-Length字段
413  推送的数据过大,超过了10MB的限制
422  HTTP头中Content-Length声明的长度和实际发送的数据长度不一致
500  站长平台服务器内部错误

  关于百度Sitemap协议支持三种格式:文本格式、xml格式、Sitemap索引格式,可以根据自己情况来选择任意一种格式组织sitemap。

本人所用的是第二种xml格式:

  <?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以utf-8编码-->
<urlset>
<!--必填标签-->
    <url>
        <!--必填标签,这是具体某一个链接的定义入口,每一条数据都要用<url>和</url>包含在里面,这是必须的 -->
        <loc>http://www.yoursite.com/yoursite.html</loc>
        <!--必填,URL链接地址,长度不得超过256字节-->
        <lastmod>2017-03-19</lastmod>
        <!--可以不提交该标签,用来指定该链接的最后更新时间-->
        <changefreq>daily</changefreq>
        <!--可以不提交该标签,用这个标签告诉此链接可能会出现的更新频率 -->
        <priority>1.0</priority>
        <!--可以不提交该标签,用来指定此链接相对于其他链接的优先权比值,此值定于0.0-1.0之间-->
    </url>
    <url>
        <loc>http://www.yoursite.com/yoursite.html</loc>
        <lastmod>2017-03-19</lastmod>
        <changefreq>daily</changefreq>
        <priority>0.8</priority>
    </url>
</urlset>
上述Sitemap向百度提交了一个url:http://www.yoursite.com/yoursite.html

 import java.io.FileWriter;
 import java.io.IOException;
 import java.text.SimpleDateFormat;
 import java.util.Date;
 import java.util.List;
 import org.dom4j.Document;
 import org.dom4j.DocumentHelper;
 import org.dom4j.Element;
 import org.dom4j.io.XMLWriter;
 import models.Game;
 import models.enums.Bool;
 public class SiteMapService {
     public static String url ="http://data.zz.baidu.com/urls?site=www.caizhuojie.com&token=******";

     public static String getFileTimeStamp() {
         SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
         String dateString = sdf.format(new Date());
         return dateString;
     }

     public static void pushAll() {

         List<String> resultGame = Game
                 .find("SELECT CONCAT('http://www.yiyoushuo.com/g',game.id,'\n') FROM Game AS game "//
                         + "where game.issueStatus=?", Bool.TRUE)
                 .fetch();
         StringBuilder sb = new StringBuilder();
         try {
             // 创建文件
             Document document = DocumentHelper.createDocument();
             // 生成根节点
             Element urlset = document.addElement("urlset");

             for (String string : resultGame) {
                 sb.append(string);
                 Element url = urlset.addElement("url");
                 Element loc = url.addElement("loc");
                 Element priority = url.addElement("priority");
                 Element lastmod = url.addElement("lastmod");
                 Element changefreq = url.addElement("changefreq");
                 loc.setText(string.replaceAll("\n", ""));
                 priority.setText("1.0");
                 lastmod.setText(getFileTimeStamp());
                 changefreq.setText("Always");
             }
             FileWriter writer = new FileWriter("sitemap.xml");
             XMLWriter xmlWriter = new XMLWriter(writer);
             xmlWriter.write(document);
             xmlWriter.close();

         } catch (IOException e) {
             e.printStackTrace();
         }
     }
 }

程序运行之后生成一个sitemap.xml文件在网站根目录,进入自己的站点再手动添加进去即可。

如果朋友有兴趣的话,可以参考,谢谢。

04-26 17:25
查看更多