这里我们以 Linux 操作系统为例,给大家推荐几种常见的监测方案。

容器监控薅光了头发?这篇你再也不能错过!-LMLPHP

三种 Docker 监控指标的方式

1.读取 CGroup 文件

此方式是通过读取 CGroup 文件的方式获取指标。

通常情况下,这些文件都在/sys/fs/cgroup目录下,例如 memory 相关指标会在 /sys/fs/cgroup/memory/docker/$CONTAINER_ID/memory.stat ,$CONTAINER_ID就是容器的ID。

注意如果没有启动 Docker,在 memory 目录下是找不到docker这个目录的。

打开 memory.stat 这个文件,会显示当前时间此容器的内存使用状况,包括各种指标等。

$> cat /sys/fs/cgroup/memory/docker/$CONTAINER_ID/memory.stat

cache 65925120
rss 104542208
rss_huge 0
shmem 0
mapped_file 30289920
dirty 8192
writeback 0
pgpgin 44034
pgpgout 2416
pgfault 32187
pgmajfault 312
inactive_anon 0
active_anon 73007104
inactive_file 91582464
active_file 5877760
unevictable 0
hierarchical_memory_limit 9223372036854771712
#...

按照 Linux 系统中“一切皆文件”的说法,Docker 容器的所有指标数据都可以使用读文件的方式拿到。

  • 优点是基础指标齐全,面面俱到,扩展性强,可以自行计算新指标
  • 缺点是太过硬核,缺乏汇总,很多指标意义晦涩难懂,大部分情况下都不会用到

2.DockerAPI

DockerAPI 官方文档

https://docs.docker.com/engine/api/v1.41/#tag/Container)。

使用 cURL 对 docker.sock 访问(如果没有开放端口的话),url 中的参数可以在文档中找到,示例如下。

$> sudo curl --unix-socket /var/run/docker.sock http://localhost/containers/b8d0c34bcb6c6fad49ca4a9341e9b0b54d0eb2a714e55617dbfe5fd02d8dac27/stats\?stream\=false\&one-shot\=false | jq

{
  "id": "$CONTAINER_ID",
  "memory_stats": {
    "limit": 8358457344,
    "max_usage": 176467968,
    "stats": {
      "active_anon": 36376576,
      "active_file": 5877760,
      "cache": 46292992,
      "dirty": 0,
      "hierarchical_memory_limit": 9223372036854772000,
      "hierarchical_memsw_limit": 0,
      "inactive_anon": 0,
      "inactive_file": 108650496,
      "mapped_file": 30408704,
      "pgfault": 32220,
      "pgmajfault": 312,
      "pgpgin": 44380,
      "pgpgout": 7538,
      "rss": 104611840,
      "rss_huge": 0,
      #...
    },
    "usage": 156004352
  },
  #...
}

和读取 CGroup 文件的方式相比,这种方式显然可读性稍好一些,对各种基础领域比如 CPU、内存、磁盘I/O、网络I/O进行汇总,并且增加了 Docker 的一些基本信息,比如容器的开启时间,容器名等。

  • 优点是对各项指标进行汇总,不必挨个儿去读文件,添加了一些人性化指标(容器时间、容器名等)
  • 缺点是太过冗长,该查询 API 会返回一个巨长的 JSON,而且可读性没有得到提升,许多常用指标依然要自己计算

3.Docker 命令行

使用 Docker 命令是最简单快捷的方式,只需要在命令行中输入命令即可。

$> docker stats

作为最常用的查看 Docker 容器运行指标的方式,docker stats 足够轻巧和简单,但是或许它又有点太简单,如此常用的命令只有寥寥10个指标,而且限于终端输出的方式,偶尔看一下还不错,用来做 Docker 容器指标的长期监控似乎有点不足。

如前所述,Docker 容器指标采集是一件很复杂的事,要解决如下几个问题:

  • 指标数据足够齐全,需要定制一些可读性较高的指标
  • 数据存储
  • 指标数据的展示以及查询

DataFlux 监测方案

我们这里向大家介绍第四种解决方案—— DataFlux,在一个平台上实现对多种数据源的统一实时监测。

在 DataFlux 中有专用于各种数据采集的工具—— DataKit,它提供了对 Docker 容器指标的采集能力。我们仍旧以 Linux 平台为例,介绍 DataKit 采集器的基本使用。

首先,我们查看官方提供的文档,按照操作步骤把采集器 DataKit 安装好。

官方教程:《如何安装 DataKit 》

https://help.dataflux.cn/doc/ef29e8365e18d813a8ec5800bbcb1adf1f39ab37

安装好 DataKit 后,在 /usr/local/cloudcare/dataflux/datakit/conf.d/docker/ 目录下,复制一份 docker_containers 采集配置

$ sudo cp docker_containers.conf.sample docker_containers.conf

编辑 docker_containers.conf:

[[inputs.docker_containers]]
    endpoint = "unix:///var/run/docker.sock"
    interval = "5m"
    # 是否采集所有容器,包括 Exited 状态
    all = false

    # 还可以采集 K8S pod!
    [inputs.docker_containers.kubernetes]
      url = "http://127.0.0.1:10255"

至此,Docker 容器的指标采集就配置好了,重新启动一下

https://help.dataflux.cn/doc/0c6ebce225784bd2ad994d5f89c5dbc89e025792#toc27)

DataKit 的即可(注意:数据需要稍等一会才能在 Dataflux 平台看到)。

最后我们在 DataFlux 后台,点击左侧菜单栏“指标”-“标签”,即可看到对应的数据结果:

容器监控薅光了头发?这篇你再也不能错过!-LMLPHP

容器监控薅光了头发?这篇你再也不能错过!-LMLPHP

容器监控薅光了头发?这篇你再也不能错过!-LMLPHP

容器监控薅光了头发?这篇你再也不能错过!-LMLPHP

从图中可以看到,Docker 容器的各项指标已经采集到,并且在图表中绘制出来。后续可以根据 container_id 进行更多操作,比如跟 Docker 日志联结等等。

更多 DataFlux 的采集指标和视图模板,大家可以直接从官方文档中查看。 https://help.dataflux.cn/doc/41d744aa9e0046e0028ea419337bf830b3a78fb4

04-04 07:48