主动推送的目的是能够把我们高质量内容推送给百度,但是首先你得有一个属于你自己的网站,在百度站长进行验证通过之后,才有资格推送百度sitemap。
百度站长平台为未使用百度统计的站点提供三种验证方式:文件验证、html标签验证、CNAME验证。
1.文件验证:您需要下载验证文件,将文件上传至您的服务器,放置于域名根目录下。
2.html标签验证:将html标签添加至网站首页html代码的<head>标签与</head>标签之间。
3.CNAME验证:您需要登录域名提供商或托管服务提供商的网站,添加新的DNS记录。
我选择的是第一种方式,详细资料在http://zhanzhang.baidu.com/college/courseinfo?id=267&page=1这是百度官方给出的课件。
验证通过之后选择链接提交方式,我选择了主动推送和sitemap两种,当然最快的是推送方式,主动推送,最为快速的提交方式,建议您将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度收录。
公司用的框架是Play Framework 是一个纯 Java 的框架,所以我们选择post推送,然后我们看一下百度(baidu)给我们提供的推送接口如下:
POST /urls?site=www.caizhuojie.com&token=edk7ychrEZP9pDQD HTTP/1.1
User-Agent: curl/7.12.1
Host: data.zz.baidu.com
Content-Length: 83
http://www.example.com/1.html
http://www.example.com/2.html
进入我们主题,实现post 推送代码如下:
package jobs; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date; import java.util.List; import com.google.gson.JsonElement; import com.google.gson.JsonObject; import models.Game; import models.enums.Bool; import play.Play; import play.jobs.Job; import play.jobs.On; import play.libs.WS; import play.libs.WS.HttpResponse; import play.libs.WS.WSRequest; //这里是框架中自带的定时任务,要创建一个sitemap,只需要简单地继承play.jobs.Job类就可以设置每天晚上23:00启动一次 @On("0 0 23 * * ?") public class SiteMap extends Job { public static String url = "http://data.zz.baidu.com/urls?site=www.caizhuojie.com&token=******"; // token这边百度提供 public void doJob() throws Exception { // 这里是框架中的一个判断,在正式环境中才会运行,在测试环境中不会触发,以保证不会重发推送。 if ("prod".equals(Play.id)) { Calendar calendar = Calendar.getInstance(); Date currentData = calendar.getTime(); calendar.add(Calendar.DAY_OF_MONTH, -1); Date lastDate = calendar.getTime(); // 查询出数据库中的游戏数据id拼接起来,这就是我们要推送的链接,(注意拼接最后加上 换行‘\n’) List<String> newResult = Game.find( "SELECT CONCAT('http://www.yiyoushuo.com/g',game.id,'\n') FROM Game AS game "// + "where game.issueStatus=? and game.adoptTime > ? and game.adoptTime < ?", Bool.TRUE, lastDate, currentData).fetch(); // 查询中加入条件,查出当前时间至前一天此时时间所产生的新游戏id,满足每天更新推送。 StringBuilder sb = new StringBuilder(); for (String string : newResult) { sb.append(string); } // 下面就是在play framework框架下的post请求。 WSRequest request = WS.url(url); request.body = sb.toString(); HttpResponse response = request.post(); JsonElement json = response.getJson(); JsonObject asJsonObject = json.getAsJsonObject(); JsonElement success = asJsonObject.get("success"); JsonElement remain = asJsonObject.get("remain"); System.out.println( "响应:" + response.getStatus() + "success:" + success.getAsInt() + "remain:" + remain.getAsInt()); } } }
成功则会返回
在此附上可能出现的异常情况的返回码信息,供调试用:
200 无使用方式错误,需要进一步观察返回的内容是否正确
400 必选参数未提供
405 不支持的请求方式,我们只支持POST方式提交数据
411 HTTP头中缺少Content-Length字段
413 推送的数据过大,超过了10MB的限制
422 HTTP头中Content-Length声明的长度和实际发送的数据长度不一致
500 站长平台服务器内部错误
关于百度Sitemap协议支持三种格式:文本格式、xml格式、Sitemap索引格式,可以根据自己情况来选择任意一种格式组织sitemap。
本人所用的是第二种xml格式:
<?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以utf-8编码-->
<urlset>
<!--必填标签-->
<url>
<!--必填标签,这是具体某一个链接的定义入口,每一条数据都要用<url>和</url>包含在里面,这是必须的 -->
<loc>http://www.yoursite.com/yoursite.html</loc>
<!--必填,URL链接地址,长度不得超过256字节-->
<lastmod>2017-03-19</lastmod>
<!--可以不提交该标签,用来指定该链接的最后更新时间-->
<changefreq>daily</changefreq>
<!--可以不提交该标签,用这个标签告诉此链接可能会出现的更新频率 -->
<priority>1.0</priority>
<!--可以不提交该标签,用来指定此链接相对于其他链接的优先权比值,此值定于0.0-1.0之间-->
</url>
<url>
<loc>http://www.yoursite.com/yoursite.html</loc>
<lastmod>2017-03-19</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
上述Sitemap向百度提交了一个url:http://www.yoursite.com/yoursite.html
import java.io.FileWriter; import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.List; import org.dom4j.Document; import org.dom4j.DocumentHelper; import org.dom4j.Element; import org.dom4j.io.XMLWriter; import models.Game; import models.enums.Bool; public class SiteMapService { public static String url ="http://data.zz.baidu.com/urls?site=www.caizhuojie.com&token=******"; public static String getFileTimeStamp() { SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); String dateString = sdf.format(new Date()); return dateString; } public static void pushAll() { List<String> resultGame = Game .find("SELECT CONCAT('http://www.yiyoushuo.com/g',game.id,'\n') FROM Game AS game "// + "where game.issueStatus=?", Bool.TRUE) .fetch(); StringBuilder sb = new StringBuilder(); try { // 创建文件 Document document = DocumentHelper.createDocument(); // 生成根节点 Element urlset = document.addElement("urlset"); for (String string : resultGame) { sb.append(string); Element url = urlset.addElement("url"); Element loc = url.addElement("loc"); Element priority = url.addElement("priority"); Element lastmod = url.addElement("lastmod"); Element changefreq = url.addElement("changefreq"); loc.setText(string.replaceAll("\n", "")); priority.setText("1.0"); lastmod.setText(getFileTimeStamp()); changefreq.setText("Always"); } FileWriter writer = new FileWriter("sitemap.xml"); XMLWriter xmlWriter = new XMLWriter(writer); xmlWriter.write(document); xmlWriter.close(); } catch (IOException e) { e.printStackTrace(); } } }
程序运行之后生成一个sitemap.xml文件在网站根目录,进入自己的站点再手动添加进去即可。
如果朋友有兴趣的话,可以参考,谢谢。