1、分页查询
1.1、 正常分页查询代码如下
NativeSearchQueryBuilder query = new NativeSearchQueryBuilder();
if(!StringUtils.isEmpty(ulqBean.getStartTime()) && !StringUtils.isEmpty(ulqBean.getEndTime())) {
query.withQuery(QueryBuilders.rangeQuery("logTime").from(ulqBean.getStartTime()).to(ulqBean.getEndTime()));
}
if(!StringUtils.isEmpty(ulqBean.getSearch())) {
BoolQueryBuilder shouldQuery = QueryBuilders.boolQuery()
.should(QueryBuilders.wildcardQuery("content", "*" + ulqBean.getSearch() + "*"))
.should(QueryBuilders.wildcardQuery("code", "*" + ulqBean.getSearch() + "*"))
.should(QueryBuilders.wildcardQuery("name", "*" + ulqBean.getSearch() + "*"));
query.withQuery(shouldQuery);
}
query.withSort(new FieldSortBuilder("logTime").order(SortOrder.DESC));
if(ulqBean.getPageNo() != null && ulqBean.getPageSize() != null) {
//es结果从第0页开始算
query.withPageable(new PageRequest(ulqBean.getPageNo() - 1, ulqBean.getPageSize()));
}
NativeSearchQuery build = query.build();
org.springframework.data.domain.Page<ConductAudits> conductAuditsPage = template.queryForPage(build, ConductAudits.class);
ulqBean.getPagination().setTotal((int) conductAuditsPage.getTotalElements());
ulqBean.getPagination().setList(conductAuditsPage.getContent());
1.2、 错误信息
[root@localhost elasticsearch-2.4.6]# curl -XGET 'http://11.12.84.126:9200/_audit_0102/_log_0102/_search?size=2&from=10000&pretty=true'
{
"error" : {
"root_cause" : [ {
"type" : "query_phase_execution_exception",
"reason" : "Result window is too large, from + size must be less than or equal to: [10000] but was [10002]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level parameter."
} ],
"type" : "search_phase_execution_exception",
"reason" : "all shards failed",
"phase" : "query",
"grouped" : true,
"failed_shards" : [ {
"shard" : 0,
"index" : "_audit_0102",
"node" : "f_CQitYESZedx8ZbyZ6bHA",
"reason" : {
"type" : "query_phase_execution_exception",
"reason" : "Result window is too large, from + size must be less than or equal to: [10000] but was [10002]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level parameter."
}
} ]
},
"status" : 500
}
1.3、 修改问题
curl -XPUT "http://11.12.84.126:9200/_audit_0102/_settings" -d '{
"index": {
"max_result_window": 100000
}
}'
2、深度查询问题
3、 利用scroll遍历数据
3.1、设置查询条件
BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery();
QueryBuilder builder = QueryBuilders.queryStringQuery("123456").field("code");
boolQueryBuilder.must(QueryBuilders.termQuery("logType", "10"))
.must(builder);
3.2、 第一次查询
- 第一次查询,跟平时的search查询一样需要设置index和type以及查询条件。
- 如果把查询类型设置成SCAN,那么不能获取结果并且不支持排序,只能获得scrollId,如果使用默认设置或者不设置,那么第一次在获取id的同时也可以获取到查询结果。
- 这个size大小的意思不是总分页的大小,实际数量应该是:所以实际返回的数量是:分片的数量*size
- 滚动时间设置是指在这个查询搜索结果的缓存时间,时间不能太久,毕竟内存空间是有限的。
SearchResponse response1 = client.prepareSearch("_audit_0221").setTypes("_log_0221")
.setQuery(boolQueryBuilder)
.setSearchType(.setSearchType(SearchType.DEFAULT))
.setSize(10).setScroll(TimeValue.timeValueMinutes(5))
.addSort("logTime", SortOrder.DESC)
.execute().actionGet();//第一次查询
for (SearchHit searchHit : response1.getHits().hits()) {
biz handle....;
}
3.3、 第二次查询,循环获取查询结果
while (response1.getHits().hits().length>0) {
for (SearchHit searchHit : response1.getHits().hits()) {
System.out.println(searchHit.getSource().toString());
}
response1 = client.prepareSearchScroll(response1.getScrollId()).setScroll(TimeValue.timeValueMinutes(5))
.execute().actionGet();
}
如果是一次性的搜索,可以清除查询结果,毕竟可以减少对内存的消耗。
ClearScrollRequest request = new ClearScrollRequest();
request.addScrollId(scrollId);
client.clearScroll(request);
4、 利用scroll-scan遍历数据
使用场景:我有500w用户,需要遍历所有用户发送数据,并且对顺序没有要求,这个时候我们可以使用scroll-scan。
具体使用方式:
4.1、 查询
SearchResponse response = client.prepareSearch("_audit_0221").setTypes("_log_0221")
.setQuery(boolQueryBuilder)
.setSearchType(SearchType.SCAN)
.setSize(5).setScroll(TimeValue.timeValueMinutes(5))
.addSort("logTime", SortOrder.DESC)
.execute().actionGet();
4.2、 获取结果
SearchResponse response1 = client.prepareSearchScroll(scrollId).setScroll(TimeValue.timeValueMinutes(5))
.execute().actionGet();
while (response1.getHits().hits().length>0) {
for (SearchHit searchHit : response1.getHits().hits()) {
System.out.println(searchHit.getSource().toString());
}
response1 = client.prepareSearchScroll(response1.getScrollId()).setScroll(TimeValue.timeValueMinutes(5))
.execute().actionGet();
}
5、 也可以使用如下spring提供的ElasticsearchTemplate分页的查询方式
QueryBuilder builder = QueryBuilders.boolQuery().filter(QueryBuilders.termQuery("code", "123456"));
SearchQuery searchQuery = new NativeSearchQueryBuilder().withIndices("_audit_0221")
.withTypes("_log_0221").withQuery(builder).withPageable(new PageRequest(0, 2)).build();
String srollId = template.scan(searchQuery, 100000, false);
while (true) {
Page<ConductAudits> scroll = template.scroll(srollId, 1000, ConductAudits.class);
if(scroll.getContent().size()==0) {
break;
}
List<ConductAudits> content = scroll.getContent();
for (ConductAudits c: content
) {
System.out.println(JSON.toJSONString(c));
}
// System.out.println(JSON.toJSONString(scroll.getContent()+"\r\n"));
for (ConductAudits conductAudits : scroll.getContent()) {
System.out.println(JSON.toJSONString(conductAudits+"\r\n"));
}
}
6、 scroll和scroll-scan区别
- scroll支持排序,scroll-scan不支持排序,是按照索引顺序返回,可以提高查询效率。
- scroll-scan第一次查询只支持返回id,没有结果。
7、 总结:
- es的分页查询不支持深度分页,如果偏要使用要结合具体业务场景进行使用。不能当成关系型数据库中的分页进行使用。
- 要想提高产品体验和查询效率不能过于依赖技术,要结合需求进行分析以提高体验,因为很多搜索类产品都不支持深度分页。
- 如果在不涉及排序的情况下尽量使用scroll-scan,它是按照索引顺序返回,提高效率。
PS:elasticSearch各个版本可能都稍有区别,但是原理相同。本文的很多代码都是基于es 2.4.6