功能

  • 存储agent push的数据

  • 为query 提供查询数据接口

参考RRDtool的理念,在数据每次存入的时候,会自动进行采样、归档。在默认的归档策略,一分钟push一次的频率下,

历史数据保存5年。同时为了不丢失信息量,数据归档的时候,会按照平均值采样、最大值采样、最小值采样存三份。

用户在查询某个metric,在过去一年的历史数据时,Graph会选择最合适的采样频率,返回采样过后的数据,提高了数据查询速度。

配置文件



{

    "debug": false, //true or false, 是否开启debug日志

    "http": {

        "enabled": true, //true or false, 表示是否开启该http端口,该端口为控制端口,主要用来对graph发送控制命令、统计命令、debug命令

        "listen": "0.0.0.0:6071" //表示监听的http端口

    },

    "rpc": {

        "enabled": true, //true or false, 表示是否开启该rpc端口,该端口为数据接收端口

        "listen": "0.0.0.0:6070" //表示监听的rpc端口

    },

    "rrd": {

        "storage": "/home/work/data/6070" //绝对路径,历史数据的文件存储路径(如有必要,请修改为合适的路)

    },

    "db": {

        "dsn": "root:@tcp(127.0.0.1:3306)/graph?loc=Local&parseTime=true", //MySQL的连接信息,默认用户名是root,密码为空,host为127.0.0.1,database为graph(如有必要,请修改)

        "maxIdle": 4  //MySQL连接池配置,连接池允许的最大连接数,保持默认即可

    },

    "callTimeout": 5000,  //RPC调用超时时间,单位ms

    "migrate": {  //扩容graph时历史数据自动迁移

        "enabled": false,  //true or false, 表示graph是否处于数据迁移状态

        "concurrency": 2, //数据迁移时的并发连接数,建议保持默认

        "replicas": 500, //这是一致性hash算法需要的节点副本数量,建议不要变更,保持默认即可(必须和transfer的配置中保持一致)

        "cluster": { //未扩容前老的graph实例列表

            "graph-00" : "127.0.0.1:6070"

        }

    }

}

默认端口

  • http:6071 提供graph本身的管理功能API

  • rpc:6070 用于接收transfer push 的分片数据和为query提供查询接口

存储过程

  • 接收数据

    接收到transfer push的数据之后,按rrd数据库解析数据,计算出UUID和MD5,计算方式为:

    * item.UUID = item.endpoint + item.metric + item.tags + item.dstype + item.step
    
    * item.md5 = item.endpoint + item.metric + item.tags
  • 处理数据

    graph会将item进行三种处理

    • 刷入本地缓存,即内存队列中,定期将队列中的数据存储到rrd文件,rrd命名规则:RRDFileName = rrd_base_path + item.md5 + item.dstype + item.step

    • 建立本地索引,首先会尝试增量建立索引,当索引接受到数据后,通过数据的checksum值来确定是不是这个来自endpoint的metric是否是第一次采集数据。如果不是第一次采集数据,

则在indexedItemCache中能够找到,并且如果uuid没变则只更新item。如果uuid变了重新index操作(涉及dstype和step的改变)。

如果是第一次数据采集,在indexeditemCache中找不到,添加到unindexeditemCache中,等待被索引。最后定时会unindexeditemCache中创建索引,保存到mysql数据库中,此时涉及mysql数据库三张表

* endpoint 表。该表记录了所有上报数据的endpoint,并且为每一个endpoint生成一个id即 endpoint_id。

* tag_endpoint表。拆解item的每一个tag。用tag和endpoint形成一个主键的表。记录每个endpoint包含的tag。每条记录生成一个id,为tagendpoint_id

* endpoint_counter表。counter是metric和tags组合后的名词


mysql> desc endpoint;

+----------+------------------+------+-----+-------------------+-----------------------------+

| Field    | Type             | Null | Key | Default           | Extra                       |

+----------+------------------+------+-----+-------------------+-----------------------------+

| id       | int(10) unsigned | NO   | PRI | NULL              | auto_increment              |

| endpoint | varchar(255)     | NO   | UNI |                   |                             |

| ts       | int(11)          | YES  |     | NULL              |                             |

| t_create | datetime         | NO   |     | NULL              |                             |

| t_modify | timestamp        | NO   |     | CURRENT_TIMESTAMP | on update CURRENT_TIMESTAMP |

+----------+------------------+------+-----+-------------------+-----------------------------+

5 rows in set (0.00 sec)

mysql> desc endpoint_counter ;

+-------------+------------------+------+-----+-------------------+-----------------------------+

| Field       | Type             | Null | Key | Default           | Extra                       |

+-------------+------------------+------+-----+-------------------+-----------------------------+

| id          | int(10) unsigned | NO   | PRI | NULL              | auto_increment              |

| endpoint_id | int(10) unsigned | NO   | MUL | NULL              |                             |

| counter     | varchar(255)     | NO   |     |                   |                             |

| step        | int(11)          | NO   |     | 60                |                             |

| type        | varchar(16)      | NO   |     | NULL              |                             |

| ts          | int(11)          | YES  |     | NULL              |                             |

| t_create    | datetime         | NO   |     | NULL              |                             |

| t_modify    | timestamp        | NO   |     | CURRENT_TIMESTAMP | on update CURRENT_TIMESTAMP |

+-------------+------------------+------+-----+-------------------+-----------------------------+

8 rows in set (0.00 sec)

mysql> desc tag_endpoint;

+-------------+------------------+------+-----+-------------------+-----------------------------+

| Field       | Type             | Null | Key | Default           | Extra                       |

+-------------+------------------+------+-----+-------------------+-----------------------------+

| id          | int(10) unsigned | NO   | PRI | NULL              | auto_increment              |

| tag         | varchar(255)     | NO   | MUL |                   |                             |

| endpoint_id | int(10) unsigned | NO   |     | NULL              |                             |

| ts          | int(11)          | YES  |     | NULL              |                             |

| t_create    | datetime         | NO   |     | NULL              |                             |

| t_modify    | timestamp        | NO   |     | CURRENT_TIMESTAMP | on update CURRENT_TIMESTAMP |

+-------------+------------------+------+-----+-------------------+-----------------------------+

6 rows in set (0.00 sec)

建立索引的目的是为了更快定位rrd文件,而rrd文件命名是受endpoint、metric、tags、dstype、step决定的,所以当查询请求时,不可能便利所有的rrd文件,会先读取数据表的数据,拼接出rrd文件路径,然后根据时间范围进行获取数据

  • 存入实时数据(HistoryCache,虽然叫history,但是其实只保存了每个指标的最近3份数据)

查询过程

  • 根据endpoint和counter,从索引中获取dsType和step

    • 生成md5 :endpoint + counter => md5

    • 从indexedItemCache查找md5对应的item

    • 没有找到的话,从DB中进行查找

  • 开始/结束时间,按照step进行取整

  • 根据endpoint、counter、dsType、step,获取对应的RRD文件名

  • 从cache中查询数据 :根据cache key获取items和flag

  • 从历史数据中查询数据,如果cfg支持migrate,以及判断查询数据不在这个Graph实例,则从其它Graph实例进行查询。否则,查询本地rrd文件

  • 将cache中的数据,以及rrd/其它Graph实例中的数据,进行合并

数据迁移过程

Graph模块支持在集群成员改变的情况下,将其它Graph模块的数据拉取过来,或者向其它Graph模块发送本地的数据,达到数据迁移的目的。

配置:



     "migrate": {

          "enabled": false,

          "concurrency": 2,

          "replicas": 500,

          "cluster": {

              "graph-00" : "127.0.0.1:6070"

          }

      }

字段含义为:

  • enabled:是否启动迁移功能

  • concurrency:每个一致性哈希节点,负责迁移数据的工作协程数

  • replicas:一致性哈希中,每份数据的重复数

  • cluster:节点名称以及具体IP端口

05-02 23:30