写在前面

最近在学Elasticsearch ，
我相信只要是接触过开发的都会听过Elasticsearch或ELK这么一个技术。
主要用来做全文检索或大数据分析等，之前一直处理了解状态。
所以打算系统学学Elasticsearch ，这也算是我从零学习Elasticsearch的笔记吧。

1. Elasticsearch 术语介绍

1.1 文档Document
- 用户存储在es中的数据文档
- es存储数据的最小单元
- 类比于数据库一行数据

1.2 索引Index
-由相同字段的文档列表组成
- 类比于数据库中的表
ps: es6.0版本之前，索引下面可以新建多个Type,就把这个Index类比于database,
但是在，6.0版本之后，一个索引下面只能够新建一个Type ，所以类比于表更合适

1.3 节点Node
- 一个ES的运行实例，是集群的基本单元

1.4 集群Cluser
- 有一个或多个节点组成，对外提供服务

2.Document 介绍

Document 主要就是一个Json Object
json对象有一些字段（Field）组成，常见数据类型：
- 字符串：text , keywork
- 数值型：long , integer , byte ,double , float , half_float(节省空间) , scaled_float(节省空间)
- 布尔： boolean
- 日期：date
- 二进制： binary
- 范围类型（新的类型）： integer_range , float_range , long_tange , double_range, date_range

注意：每一个文档Document都有一个唯一的ID标识
- 可以自行指定
- es 自动生成
示例Document

{
    "remote_ip":"123.207.226.36",
    "user_name":"liuge",
    "@timestamp":"2015-05-14T08:23:52.000Z",
    "request_action":"GET",
    "http_version":"1.1",
    "response":"304",
    "bytes":"0",
    "referrer":"-",
    "agent":"-"
}

每一个Document都有一个MetaData (元数据)
元数据：用于标注文档的相关信息
- _index:文档所在的索引名
- _type: 文档所在的类型名
- id：文档的唯一ID
- uid:组合id,由_type和_id组成（6.X版本_type不再起作用）
- _source:文档的原始Json数据，可以从这里获取每一个字段的内容
- _all:整合所有字段的内容到该字段，默认禁用，不推荐

3.Index (索引) 介绍

类比于table,具有相同结构文档的集合
- 每个索引都有自己的 mapping 定义，用于定义字段名和类型
一个集群可以有多个索引

3.RESTful API 介绍

es集群对外提供RESTful API：用户操作集群中的数据
- 表现层状态转移
- URI 指定资源，如：Index ,Document
- Http Method 指明资源操作类型，如：GET,POST,PUT,DELETE等
与es集群资源进行交互的方式：
方式一：Curl命令行

curl -XPUT "HTTP://localhost:9200/ceshi/doc/1" -i -H "Content-Type:application/json" -d
'
{
"username":"liuge",
"job":"软件开发"
}
'

方式二：Kibana DevTools

PUT /ceshi/doc/1
{
    "useranme":"liuge",
    "job":"软件开发"
}

4.Mapping 介绍

Mapping设置，即如何定义数据字段和类型

==========Mapping的字段类型（Filed type）===========================
核心数据类型：
    - 字符串 ：text （会分词）, keywork（不会分词）

    - 数值型 ：long , integer , byte ,double , float , half_float(节省空间) , scaled_float(节省空间)

    - 布尔： boolean

    - 日期：date

    - 二进制 ： binary

    - 范围类型 （新的类型）： integer_range , float_range , long_tange , double_range, date_range
复杂的数据类型:
    - 数组类型 array
    - Object
    - 嵌套类型 nested object

地理位置数据类型：
    - geo_point
    - geo_shape

专用类型：
    - 记录ip地址
    - 实现自动补全completion
    - 记录分次数 token_count
    - 记录字符串 hash
    - percolator

多字段特性：
    - 允许对同一个字段采用不同的配置，比如分词，常见的实现汉字实现拼音搜索
    - 实现方式:在汉字中新增一个子字段为pinyin就可以

Kibana DevTools方式：（推荐）

4.1 自定义一个mapping

PUT accounts
{
    "settings": {
        "index": {
            "number_of_shards" : 1,
            "number_of_replicas" : 0
        }
    },
    "mappings":{
        "doc":{
            "dynamic":false, # 设置不允许动态添加，结果是，可以插入未定义的字段，但是不能通过未定义字段值来进行查询
            "properties":{
                 "user": {
                  "type": "text",
                  "analyzer": "ik_max_word",
                  "search_analyzer": "ik_max_word"
                },
                "title": {
                  "type": "text",
                  "analyzer": "ik_max_word",
                  "search_analyzer": "ik_max_word"
                },
                "desc": {
                  "type": "text",
                  "analyzer": "ik_max_word",
                  "search_analyzer": "ik_max_word"
                }
            }
        }
    }
}

上面代码中，首先新建一个名称为accounts的 Index
这三个字段都是中文，而且类型都是文本（text），所以需要指定中文分词器，不能使用默认的英文分词器。

Elastic 的分词器称为 analyzer。我们对每个字段指定分词器。

"user": {
  "type": "text",
  "analyzer": "ik_max_word",
  "search_analyzer": "ik_max_word"
}

上面代码中，analyzer是字段文本的分词器，search_analyzer是搜索词的分词器。ik_max_word分词器是插件ik提供的，可以对文本进行最大数量的分词。

4.2 新增记录，带上id

PUT accounts/doc/1
{
  "user": "张三",
  "title": "工程师",
  "desc": "数据库管理"
}

新增记录的时候，也可以不指定 Id，这时要改成 POST 请求

POST accounts/doc

{
  "user": "李四",
  "title": "工程师",
  "desc": "系统管理"
}

4.3 删除数据

DELETE accounts/doc/1
DELETE accounts

4.4更新记录就是使用 PUT 请求，重新发送一次数据。

PUT accounts/doc/1
{
"user": "张三",
"title": "工程师",
"desc": "数据库管理，软件开发"
}

4.3 查询数据

使用 GET 方法，直接请求/Index/Type/_search，就会返回所有记录
GET accounts/doc/_search

/Index/Type/id ，返回指定id的记录

GET accounts/doc/1
GET accounts/doc/_search
{
"query":{
"term":{
"_id":"1"
}
}
}

GET accounts/doc/_search
{
  "query" : {
    "match" : {
      "desc" : "管理"
    }
  },
  "from": 1,
  "size": 1
}

上面代码使用 Match 查询，指定的匹配条件是desc字段里面包含"软件"这个词
Elastic 默认一次返回10条结果，可以通过size字段改变这个设置。
还可以通过from字段，指定位移。
上面代码指定，从位置1开始（默认是从位置0开始），只返回一条结果。

逻辑运算or

GET accounts/doc/_search
{
  "query" : { "match" : { "desc" : "软件 系统" }}
}

逻辑运算and

GET accounts/doc/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "desc": "软件" } },
        { "match": { "desc": "系统" } }
      ]
    }
  }
}

5 分词介绍

5.1 Analysis

分词是指将文本转为一系列单词的过程，也叫作文本分析
在es里面称为Analysis
在es中专门负责分词的组件叫做分词器（Analyzer）
分词器（Analyzer），es会自带一部分词器
- Character Filters
- 针对原始的文本进行处理，例如，去除html,a，p,div特殊符号等
- Tokenizer
- 将原始的文本按照一定的规则切分为单词
- Token Filters
- 把Tokenizer再加工，大小写转换等，没有实际意义的词可以去掉，新增近义词，同义词等

ps:分词执行的顺序也是从上到下的

5.2 分词API的使用

Analyze（分词） API 使用
es提供的用于测试分词的api接口，验证分词效果
- 可以直接指定分词器（Analyzer）进行测试
POST _analyze
{
"analyzer":"standard", #这个测试用的standard分词器是es自己带的
"text":"Hello World!"
}

- 可以直接指定索引中的字段进行测试
    POST test_index/_analyze
    {
        "field":"username", # 指定索引（表）的字段
        "text":"hello world!"
    }

- 可以自定义分析器进行测试
    POST _analyze
    {
        "analyzer":"standard", #指明自己使用哪一个分词器
        "filter":["lowercase"], #指明filter处理为小写
        "text":"HEllo WOrld!"
    }

5.3 预定义分词器

es中自带的分词器
如下：分词器前面讲到，就是由三个部分组成，这里自带的不同也是三个部分组成上不同

- standard Analyzer
    - 默认分词器，按照单词的边界切分
    - Tokenizer 1.standard
    - Token Filters ： 1.standard 2.Loswer case 3.Stop（默认禁用）

- Simple Analyzer
    - 切分规则。按照非字母切分，非字母的部分会被删除
    - Filters 1.Loswer case

- Whitespace Analyzer
    - 按照空格进行切分

- Stop Analyzer
    - 语气助词等修饰性词语会被移除，比如，the ,an ,的，这那等
    - 相比于Simple Analyzer 多了修饰性词语的移除
    - Filters  1.Loswer case 2.stop

- Keyword Analyzer
    - 不进行分词操作
    - 原样输出，当你不想对文本做分词操作的时候

- Pattern Analyzer
    - 自定义切分的规则，正则匹配
    - 默认是 \W+ ，即非字词的符号作为分隔符，空格 ~ = ‘ 等特殊符号

- Language Analyzer
     - 提供了30+ 常见语言的分词器

中文分词：是指将一句中文句子切分为一个个单独的词
在英文中，句子内单词可以使用空格做明显分隔，
在中文中，句子内的词语是没有分隔的

常见中文分词系统:
    - IK
    - jieba
    高阶一点的：基于自然语言处理的分词系统
    - Hanlp
    - THULAC

5.4 自定义分词器

当自带的分词器无法满足需求的时候，可以自定义分词
通过自定义分词的三个部分来实现：

Character Filters
Tokenizer
Token Filters

- 针对原始的文本进行处理，例如，去除html,a，p,div特殊符号等

自带的如下：
- HTML Script 去除html 标签和转换html实体
- Mapping 进行字符串的替换操作
- Pattern Replace进行正则匹配替换
会影响到Tokenizer解析position和offset

-将原始文本按照一定规则切分为单词

自带的如下：
- standard按照单词进行分割
- latter 按照非字符类进行分割
- whitespace 按照空格进行分割
- UAX URL Email 按照standard 分割，但不会分割邮箱和URL
- NGram 和Edge NGram 连词分割
- Path Hierachy 按照文件路径进行分割
测试：

POST _analyze{
            "tokenizer":"path_hierachy",
            "text":"/one/two/three"
        }

- 将tokenizer 输出的单词(term )进行增加，删除，修改等操作

自带的如下：
- lowercase 将所有输出的单词转换为小写
- stop 删除 stop words
- NGram 和 Edge Ngram 连词分割
- Synonym 添加近义词的term
重要，这里可以实现自动补全的功能

POST _analyze{
    "text":"a Hello World！",
    "tokenizer":"standard",
    "filter":[
        "stop",  # 当有多个filter的时候，会依次执行
        "lowercase",
        {
            "type":"ngram",
            "min_gram":2,
            "max_gram":4
        }
    ]
}

5.5 自定义分词的API

自定义分词器在索引（具体表）中的设定：

PUT test_index{
    "settings":{
        "analysis":{
            "char_filter":{},
            "tokenizer":{},
            "filter":{},
            "analyzer":{}
        }
    }
}

demo

PUT testairbnb
{
  "settings": {
    "index": {
      "number_of_shards": 1,
      "number_of_replicas": 0,
      "analysis": {
        "analyzer": {
          "autosuggest_analyzer": {
            "filter": [
              "lowercase",
              "asciifolding",
              "autosuggest_filter"
            ],
            "tokenizer": "standard",
            "type": "custom"
          },
          "ngram_analyzer": {
            "filter": [
              "lowercase",
              "asciifolding",
              "ngram_filter"
            ],
            "tokenizer": "standard",
            "type": "custom"
          }
        },
        "filter": {
          "autosuggest_filter": {
            "max_gram": "20",
            "min_gram": "1",
            "token_chars": [
              "letter",
              "digit",
              "punctuation",
              "symbol"
            ],
            "type": "edge_ngram"
          },
          "ngram_filter": {
            "max_gram": "9",
            "min_gram": "2",
            "token_chars": [
              "letter",
              "digit",
              "punctuation",
              "symbol"
            ],
            "type": "ngram"
          }
        }
      }
    }
  },
  "mappings": {
    "doc": {
      "dynamic": false,
      "properties": {
        "accommodates": {
          "type": "integer"
        },
        "bathrooms": {
          "type": "integer"
        },
        "bed_type": {
          "type": "text",
          "fields": {
            "keyword": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        },
        "bedrooms": {
          "type": "integer"
        },
        "beds": {
          "type": "integer"
        },
        "date_from": {
          "type": "date",
          "format": "yyyyMMdd"
        },
        "date_to": {
          "type": "date",
          "format": "yyyyMMdd"
        },
        "has_availability": {
          "type": "boolean"
        },
        "host_image": {
          "type": "keyword",
          "ignore_above": 256,
          "index": false
        },
        "host_name": {
          "type": "text",
          "analyzer": "autosuggest_analyzer",
          "fields": {
            "keyword": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        },
        "image": {
          "type": "keyword",
          "ignore_above": 256,
          "index":false
        },
        "listing_url": {
          "type": "keyword",
          "ignore_above": 256
        },
        "location": {
          "type": "geo_point"
        },
        "name": {
          "type": "text",
          "analyzer": "autosuggest_analyzer",
          "fields": {
            "keyword": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        },
        "price": {
          "type": "float"
        },
        "property_type": {
          "type": "text",
          "fields": {
            "keyword": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        },
        "room_type": {
          "type": "text",
          "fields": {
            "keyword": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        }
      }
    }
  }
}

上面分词的配置中，能够完全实现个性化设定

参考文章http://www.ruanyifeng.com/blog/2017/08/elasticsearch.html
参考文章https://coding.imooc.com/class/chapter/181.html

留歌__36的博客

全文搜索引擎 Elasticsearch

写在前面

1. Elasticsearch 术语介绍

2.Document 介绍

3.Index (索引) 介绍

3.RESTful API 介绍

4.Mapping 介绍

4.1 自定义一个mapping

4.2 新增记录，带上id

新增记录的时候，也可以不指定 Id，这时要改成 POST 请求

4.3 删除数据

4.4更新记录就是使用 PUT 请求，重新发送一次数据。

4.3 查询数据

使用 GET 方法，直接请求/Index/Type/_search，就会返回所有记录
GET accounts/doc/_search

/Index/Type/id ，返回指定id的记录

5 分词介绍

5.1 Analysis

5.2 分词API的使用

5.3 预定义分词器

5.4 自定义分词器

5.5 自定义分词的API

留歌__36的博客

全文搜索引擎 Elasticsearch

写在前面

1. Elasticsearch 术语介绍

2.Document 介绍

3.Index (索引) 介绍

3.RESTful API 介绍

4.Mapping 介绍

4.1 自定义一个mapping

4.2 新增记录，带上id

新增记录的时候，也可以不指定 Id，这时要改成 POST 请求

4.3 删除数据

4.4更新记录就是使用 PUT 请求，重新发送一次数据。

4.3 查询数据

使用 GET 方法，直接请求/Index/Type/_search，就会返回所有记录GET accounts/doc/_search

/Index/Type/id ，返回指定id的记录

5 分词介绍

5.1 Analysis

5.2 分词API的使用

5.3 预定义分词器

5.4 自定义分词器

5.5 自定义分词的API

使用 GET 方法，直接请求/Index/Type/_search，就会返回所有记录
GET accounts/doc/_search