Ceph架构

存储类型

  • 集中式存储

    • NAS (网络附加存储 / 网络区域存储)
    • SAN (存储区域网络)
    • DAS (直连附加存储)

    集中式存储的优点:

    1. 管理简单,因为所有数据都存放在同一个节点上,所以数据的管理与维护相对简单

    2. 安全性高,集中式存储中只有一个数据中心,因此更容易实现安全控制

    3. 数据统一管理

    常见的的集中式存储有:

  • 分布式存储

    分布式存储是一种数据存储技术。在分布式存储架构中,信息被存储于多个独立且互不干扰的设备中。不同于传统的集中式存储,分布式存储采用可扩展的存储结构,这在一定程度上提高了存储系统的可靠性,可用性和访问效率。

为什么用到Ceph?

1. NFS

现在常用的存储服务有NFS,那么为什么不采用NFS呢?

我们不妨这样设想一下,NFS如果节点挂掉了,那么我们把这个节点上的硬盘拔出来,换到其他节点上,在其他节点上起一个NFS,那么数据依旧是存在的,但是,如果坏的不是节点而是硬盘呢?可能你想到了给硬盘做RAID,好,保留这个问题,继续往后看。

2. MooseFS

Moosefs就是一个分布式存储,他的技术架构就是提供一个Mater节点,来管理整个集群,client只需要通过挂载Master节点就可以往集群内存储文件

大家都知道,一个文件是由文件元数据以及文件数据组成的,文件元数据保存的就是一些简单的概要,比如这个文件多大,文件的拥有人,所属组以及访问权限这些东西,元数据一般都不大,所以会直接保存在Master节点上,而文件本身的数据则会保存在存储节点上,并且是有多副本机制的。完全不怕某个节点挂掉而导致数据丢失。

MooseFS瓶颈

虽然文件的元数据占用的空间并不大,但是在现在这个时代,也奈何不了他多啊,当元数据过多时,Master就成了Moosefs的瓶颈,因为所有的请求都是需要经过Master的,并且Moosefs(到写这篇文章的时间)是没办法做Master高可用的,想给他做高可用的方式就是2个Master,使用Keepalive提供一个VIP(虚拟IP),访问这个VIP就可以访问到2个Master节点,但是,在同一时间内,只有一个Master在工作,所以瓶颈依旧存在

3. GlusterFS

看到了MooseFS的瓶颈之后,GlusterFS采取了去Master,即不需要Master节点,每个存储节点上都内嵌一个可以代替Master工作的组件,这样操作下来,所有的元数据并不是都放在同一个节点上,每个节点都只需要保存部分元数据,好像这个架构没什么问题了哈,但是我们回想一下MooseFS是如何使用的?是不是客户端挂载Master就可以使用集群了?但是现在没有Master了,或者说每个节点都是Master,那怎么办呢?

GlusterFS就要求使用GlusterFS的客户端安装一个软件,Gluster-client,并且给这个软件写一个配置文件,把所有的存储节点IP地址写进去,这样操作。但是如果后期节点需要更换,改动起来就比较麻烦。我们再来看看Ceph是怎么做的

4. Ceph

Ceph的做法就跟前两者不同了,Moose FS不是说Master上的元数据会成为瓶颈吗?GlusterFS不是说客户端操作不易吗?那我来折中一下呢?Ceph他保留了Master节点,但是,这个Master保存的不是文件的元数据,是集群的元数据,也就是保存的集群的信息,那么既然Master保存的是集群元数据,那么文件元数据保存到哪了呢?他有专门的文件元数据节点,所有的文件元数据都保存在这个节点上,记住,这个节点只保存元数据,其他一概不管。这样说来,既解决了客户端配置维护困难,也解决了Master节点的瓶颈。

这就是Ceph的架构,他兼顾了 易维护、性能,这就是他流行的原因

现在再回头去想NFS的问题,为什么不做RAID呢?因为做RAID成本就比用Ceph的成本高了

Ceph的版本命名跟OpenStack一样,采取英文字母命令A-Z,目前最新版是R版

Ceph的组件

  1. mon:集群监视器(就是master)
  2. osd:集群存储节点
  3. mgr:集群管理器
    以上三个节点必装,缺一不可
  4. mds:文件元数据节点
  5. rgw:对象存储网关
  6. nfs-genasha:为ceph对外提供NFS协议的文件存储服务
  7. rbd-mirror:块设备镜像服务

Ceph部署

ceph的部署方式有:

  1. Cephadm(官方推荐)
  2. ceph-ansible
  3. ceph-deploy(N版本之前使用)
  4. DeepSea
  5. 手工部署(极其复杂,不推荐)

前期准备

每个节点都要做

1.1 修改主机名

[root@localhost ~]# hostnamectl set-hostname ceph01

1.2 关闭防火墙以及selinux

[root@ceph01 ~]# systemctl disable --now firewalld
[root@ceph01 ~]# setenforce 0
[root@ceph01 ~]# cat /etc/selinux/config 

# This file controls the state of SELinux on the system.
# SELINUX= can take one of these three values:
#     enforcing - SELinux security policy is enforced.
#     permissive - SELinux prints warnings instead of enforcing.
#     disabled - No SELinux policy is loaded.
SELINUX=disabled

1.3 配置hosts

[root@ceph01 ~]# cat /etc/hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 ceph01
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.101.10 ceph01
192.168.101.20 ceph02
192.168.101.30 ceph03

1.4 配置时间同步

[root@ceph01 ~]# yum install chrony -y
[root@ceph01 ~]# systemctl enable --now chronyd

2. 安装cephadm

2.1 安装git

安装git是因为需要拉取cephadm,因为欧拉操作系统暂时用不了官方的cephadm,需要下载另一个版本

[root@ceph01 ~]# yum install git -y
[root@ceph01 ~]# git clone https://gitee.com/yftyxa/openeuler-cephadm.git
[root@ceph01 ~]# cd openeuler-cephadm/
[root@ceph01 openeuler-cephadm]# ls
cephadm
[root@ceph01 openeuler-cephadm]# mv cephadm /usr/sbin/

2.2 安装podman3.3

[root@ceph01 ~]#  wget-O /etc/yum.repos.d/huawei.repo https://repo.huaweicloud.com/repository/conf/CentOS-8-reg.repo
# 一定要指定版本安装
[root@ceph01 ~]# yum install podman-3.3.1*

2.3 配置ceph源

不要使用cephadm add-repo 因为在欧拉上是不支持的

[root@ceph01 ~]# cephadm version
ceph version 16.2.13 (5378749ba6be3a0868b51803968ee9cde4833a3e) pacific (stable)
[root@ceph01 ~]# vim /etc/yum.repos.d/ceph.repo
[ceph]
name=ceph
baseurl=https://mirrors.huaweicloud.com/ceph/rpm-pacific/el8/x86_64/
gpgcheck=0
enabled=1

2.4 将repo文件传到各个节点

[root@ceph01 ~]# scp /etc/yum.repos.d/ceph.repo ceph02:/etc/yum.repos.d/

Authorized users only. All activities may be monitored and reported.
ceph.repo                                              100%  107   209.4KB/s   00:00    
[root@ceph01 ~]# scp /etc/yum.repos.d/ceph.repo ceph03:/etc/yum.repos.d/

Authorized users only. All activities may be monitored and reported.
ceph.repo                                              100%  107   203.1KB/s   00:00

3. 安装ceph

[root@ceph01 ~]# cephadm bootstrap --mon-ip 192.168.101.10 --initial-dashboard-user admin --initial-dashboard-password 123 --dashboard-password-noupdate

--mon-ip指定monitor,指定一个就行,后期可以添加

--initial-dashboard-user admin 指定dashboard的用户名是admin,不指定也行

--initial-dashboard-password 123 指定dashboard的用户名是123,不指定也行

--dashboard-password-noupdate 第一次登录dashboard无需修改密码

安装完之后会有一个回显

Ceph Dashboard is now available at:

	     URL: https://localhost.localdomain:8443/
	    User: admin
	Password: 123

Enabling client.admin keyring and conf on hosts with "admin" label
You can access the Ceph CLI with:

	sudo /usr/sbin/cephadm shell --fsid dc6d1544-17ef-11ef-9393-000c297dea16 -c /etc/ceph/ceph.conf -k /etc/ceph/ceph.client.admin.keyring

Please consider enabling telemetry to help improve Ceph:

	ceph telemetry on

For more information see:

	https://docs.ceph.com/docs/pacific/mgr/telemetry/

Bootstrap complete.

3.1 登录dashboard

Ceph 架构以及部署-LMLPHP

3.2 安装ceph-common

[root@ceph01 ~]# yum install ceph-common  --nobest
如果不加上nobest的话,他会报错,因为我们的版本是16.2.13,而仓库里的是common是16.2.15,不是最佳匹配
加上nobest的话他就不会报错了

装完之后我们可以使用ceph -s 来查看集群状态

[root@ceph01 ~]# ceph -s
  cluster:
    id:     dc6d1544-17ef-11ef-9393-000c297dea16
    health: HEALTH_WARN
            OSD count 0 < osd_pool_default_size 3
 
  services:
    mon: 1 daemons, quorum ceph01 (age 30m)
    mgr: ceph01.luyssm(active, since 27m)
    osd: 0 osds: 0 up, 0 in
 
  data:
    pools:   0 pools, 0 pgs
    objects: 0 objects, 0 B
    usage:   0 B used, 0 B / 0 B avail
    pgs: 

3.2.1 群健康的3种状态

1. health: HEALTH_OK       这个代表集群是OK的
2. health: HEALTH_WARN  这个代表的是有警告
3. health: HEALTH_ERR     这个代表集群出现错误,无法提供服务

3.2.2 services

mon: 1 daemons, quorum ceph01 (age 30m)
mgr: ceph01.luyssm(active, since 27m)
osd: 0 osds: 0 up, 0 in

3.2.3 健康详细情况

[root@ceph01 ~]# ceph health detail
HEALTH_WARN OSD count 0 < osd_pool_default_size 3
[WRN] TOO_FEW_OSDS: OSD count 0 < osd_pool_default_size 3

这里会详细的说明为什么不健康

4. 添加节点

有一个命令 ceph orch 他是用来管理节点以及 orch 信息的c

[root@ceph01 ~]# ceph orch ls
NAME           PORTS        RUNNING  REFRESHED  AGE  PLACEMENT  
alertmanager   ?:9093,9094      1/1  2m ago     45m  count:1    
crash                           1/1  2m ago     45m  *          
grafana        ?:3000           1/1  2m ago     45m  count:1    
mgr                             1/2  2m ago     45m  count:2    
mon                             1/5  2m ago     45m  count:5    
node-exporter  ?:9100           1/1  2m ago     45m  *          
prometheus     ?:9095           1/1  2m ago     45m  count:1 
[root@ceph01 ~]# ceph orch ps
NAME                  HOST    PORTS        STATUS         REFRESHED  AGE  MEM USE  MEM LIM  VERSION  IMAGE ID      CONTAINER ID  
alertmanager.ceph01   ceph01  *:9093,9094  running (52m)    48s ago  53m    23.8M        -  0.23.0   ba2b418f427c  922cc9da5d93  
crash.ceph01          ceph01               running (53m)    48s ago  53m    6665k        -  16.2.13  e08a45948779  beb27dd23017  
grafana.ceph01        ceph01  *:3000       running (51m)    48s ago  52m    52.8M        -  8.3.5    dad864ee21e9  8040b45413ea  
mgr.ceph01.luyssm     ceph01  *:9283       running (54m)    48s ago  54m     430M        -  16.2.13  e08a45948779  46795e2d6fd4  
mon.ceph01            ceph01               running (54m)    48s ago  55m     127M    2048M  16.2.13  e08a45948779  40063aa2ec52  
node-exporter.ceph01  ceph01  *:9100       running (52m)    48s ago  52m    20.3M        -  1.3.1    1dbe0e931976  526975c5960b  
prometheus.ceph01     ceph01  *:9095       running (52m)    48s ago  52m    68.7M        -  2.33.4   514e6a882f6e  7c8ef8a42751

通过ps可以看到ceph具体的进程,运行在哪个机器上,内存占用是多少,允许最大占用内存是多少,这里的image id就是容器使用的镜像ID,cephadm部署出来的集群就是基于容器的

4.1 开始添加节点

需要将/etc/ceph/ceph.pub这个公钥传到被添加的节点上

4.1.1 发放公钥

[root@ceph01 ceph]# ssh-copy-id -f -i /etc/ceph/ceph.pub ceph02
[root@ceph01 ceph]# ssh-copy-id -f -i /etc/ceph/ceph.pub ceph03

4.1.2 被添加节点安装容器引擎

# 先移除本来就存在的podman1版本
[root@ceph02 ~]# yum remove podman* -y
# 安装podman3
[root@ceph02 ~]# yum install podman-3* -y
[root@ceph03 ~]# yum install podman-3* -y

4.1.3 添加节点

[root@ceph01 ceph]# ceph orch  host add ceph02 192.168.101.20
Added host 'ceph02' with addr '192.168.101.20'
[root@ceph01 ceph]# ceph orch  host add ceph03 192.168.101.30
Added host 'ceph03' with addr '192.168.101.30'
[root@ceph01 ceph]# ceph orch host ls
HOST    ADDR            LABELS  STATUS  
ceph01  192.168.101.10  _admin          
ceph02  192.168.101.20                  
ceph03  192.168.101.30                  
3 hosts in cluster

Lables 就是标签,当某个节点拥有_admin标签时,集群就会把连接客户端连接ceph集群的认证文件发放到该节点上

4.1.4 标签修改

添加标签

目前是只有ceph01拥有admin标签,在/etc/ceph 下有一些其他节点没有的文件

[root@ceph01 ceph]# ls /etc/ceph/
ceph.client.admin.keyring  ceph.conf  ceph.pub  rbdmap
# ceph03查看
[root@ceph03 ~]# ls /etc/ceph/
rbdmap

# 给ceph03打标签
[root@ceph01 ceph]# ceph orch host label add ceph03 _admin
Added label _admin to host ceph0
# 重新查看ceph03
[root@ceph03 ~]# ls /etc/ceph/
ceph.client.admin.keyring  ceph.conf  rbdmap
[root@ceph01 ceph]# ceph orch host ls
HOST    ADDR            LABELS  STATUS  
ceph01  192.168.101.10  _admin          
ceph02  192.168.101.20                  
ceph03  192.168.101.30  _admin

这个时候,ceph03就可以使用ceph客户端来操作ceph集群了

删除标签
[root@ceph01 ceph]# ceph orch host label rm ceph03 _admin
Removed label _admin from host ceph03
[root@ceph01 ceph]# ceph orch host ls
HOST    ADDR            LABELS  STATUS  
ceph01  192.168.101.10  _admin          
ceph02  192.168.101.20                  
ceph03  192.168.101.30

4.2 关闭mon自动扩展

[root@ceph01 ~]# ceph orch apply mon --unmanaged
Scheduled mon update...
[root@ceph01 ~]# ceph orch apply mon 3
Scheduled mon update...
[root@ceph01 ~]# ceph orch ls
NAME           PORTS        RUNNING  REFRESHED  AGE   PLACEMENT  
alertmanager   ?:9093,9094      1/1  97s ago    100m  count:1    
crash                           3/3  99s ago    100m  *          
grafana        ?:3000           1/1  97s ago    100m  count:1    
mgr                             2/2  99s ago    100m  count:2    
mon                             3/3  99s ago    52s   count:3    
node-exporter  ?:9100           3/3  99s ago    100m  *          
prometheus     ?:9095           1/1  97s ago    100m  count:1 

4.3 将mon服务固定在某几个节点

如果有一个mon节点挂掉了,而此时又添加了一台新的节点,那么按照ceph集群的控制,可能会在新的节点上启动一个mon,但我们并不想他更换mon节点,此时可以这么做

# 1. 先给节点打标签
[root@ceph01 ~]# ceph orch host label add ceph01 mon
Added label mon to host ceph01
[root@ceph01 ~]# ceph orch host label add ceph02 mon
Added label mon to host ceph02
[root@ceph01 ~]# ceph orch host label add ceph03 mon
Added label mon to host ceph03
# 2. 开启标签匹配
[root@ceph01 ~]# ceph orch apply mon label:mon
Scheduled mon update...

这样操作之后,mon就只会在有mon标签的节点上去启动

5. 添加OSD

首先需要ceph节点上有空闲的盘,然后将空闲的盘添加进来,必须是一块裸盘,在一千的版本是允许是一个目录的

[root@ceph01 ~]# ceph orch daemon add osd ceph01:/dev/sdb
Created osd(s) 0 on host 'ceph01'
[root@ceph01 ~]# ceph orch daemon add osd ceph01:/dev/sdc
Created osd(s) 1 on host 'ceph01'
[root@ceph01 ~]# ceph orch daemon add osd ceph01:/dev/sdd
Created osd(s) 2 on host 'ceph01'

在添加节点之后ceph会将这块盘做成一个lvm,可以使用lvs去查看

[root@ceph01 ~]# lvs
  LV                                             VG                                        Attr       LSize   Pool Origin Data%  Meta%  Move Log Cpy%Sync Convert
  osd-block-92842562-ddd9-4703-a406-0c5608943e67 ceph-4b36ac72-7807-4e01-97d6-a47974ff5819 -wi-ao---- <50.00g                                                    
  osd-block-ca2d6b54-650f-41bc-9519-08eeb5d405fb ceph-615825c2-3c13-4367-98e3-7b9197eda340 -wi-ao---- <50.00g                                                    
  osd-block-2e02f3ac-9768-48d7-8d7b-591d1f5badd5 ceph-bc484b43-f83f-43b2-b49e-a838c8d07e75 -wi-ao---- <50.00g                                                    
  home                                           openeuler                                 -wi-ao---- <29.90g                                                    
  root                                           openeuler                                 -wi-ao---- <61.24g                                                    
  swap                                           openeuler                                 -wi-ao----  <7.86g                                         

添加完之后我们使用命令来查看

[root@ceph01 ~]# ceph -s
  cluster:
    id:     dc6d1544-17ef-11ef-9393-000c297dea16
    health: HEALTH_OK
 
  services:
    mon: 3 daemons, quorum ceph01,ceph02,ceph03 (age 18m)
    mgr: ceph02.oxmsfu(active, since 19m), standbys: ceph01.luyssm
    osd: 9 osds: 9 up (since 4m), 9 in (since 4m)
 
  data:
    pools:   1 pools, 1 pgs
    objects: 0 objects, 0 B
    usage:   53 MiB used, 450 GiB / 450 GiB avail
    pgs:     1 active+clean

这里显示有9个osd,并且状态是up且in,说明没问题

ceph df

# ceph df命令
[root@ceph01 ~]# ceph df
--- RAW STORAGE ---
CLASS     SIZE    AVAIL    USED  RAW USED  %RAW USED
hdd    450 GiB  450 GiB  53 MiB    53 MiB       0.01
TOTAL  450 GiB  450 GiB  53 MiB    53 MiB       0.01
 
--- POOLS ---
POOL                   ID  PGS  STORED  OBJECTS  USED  %USED  MAX AVAIL
device_health_metrics   1    1     0 B        0   0 B      0    142 GiB

ceph osd df

# ceph osd df
[root@ceph01 ~]# ceph osd df
ID  CLASS  WEIGHT   REWEIGHT  SIZE     RAW USE  DATA     OMAP  META     AVAIL    %USE  VAR   PGS  STATUS
 0    hdd  0.04880   1.00000   50 GiB  6.0 MiB  552 KiB   0 B  5.5 MiB   50 GiB  0.01  1.02    0      up
 1    hdd  0.04880   1.00000   50 GiB  6.0 MiB  552 KiB   0 B  5.5 MiB   50 GiB  0.01  1.02    0      up
 2    hdd  0.04880   1.00000   50 GiB  6.0 MiB  552 KiB   0 B  5.4 MiB   50 GiB  0.01  1.01    1      up
 3    hdd  0.04880   1.00000   50 GiB  6.0 MiB  552 KiB   0 B  5.4 MiB   50 GiB  0.01  1.01    1      up
 4    hdd  0.04880   1.00000   50 GiB  5.9 MiB  552 KiB   0 B  5.3 MiB   50 GiB  0.01  0.99    0      up
 5    hdd  0.04880   1.00000   50 GiB  6.1 MiB  552 KiB   0 B  5.6 MiB   50 GiB  0.01  1.03    0      up
 6    hdd  0.04880   1.00000   50 GiB  5.9 MiB  552 KiB   0 B  5.3 MiB   50 GiB  0.01  0.99    0      up
 7    hdd  0.04880   1.00000   50 GiB  5.7 MiB  552 KiB   0 B  5.2 MiB   50 GiB  0.01  0.97    1      up
 8    hdd  0.04880   1.00000   50 GiB  5.7 MiB  552 KiB   0 B  5.2 MiB   50 GiB  0.01  0.97    0      up
                       TOTAL  450 GiB   53 MiB  4.9 MiB   0 B   48 MiB  450 GiB  0.01                   
MIN/MAX VAR: 0.97/1.03  STDDEV: 0

ceph osd tree

[root@ceph01 ~]# ceph osd tree
ID  CLASS  WEIGHT   TYPE NAME        STATUS  REWEIGHT  PRI-AFF
-1         0.43918  root default                              
-3         0.14639      host ceph01                           
 0    hdd  0.04880          osd.0        up   1.00000  1.00000
 1    hdd  0.04880          osd.1        up   1.00000  1.00000
 2    hdd  0.04880          osd.2        up   1.00000  1.00000
-5         0.14639      host ceph02                           
 3    hdd  0.04880          osd.3        up   1.00000  1.00000
 4    hdd  0.04880          osd.4        up   1.00000  1.00000
 5    hdd  0.04880          osd.5        up   1.00000  1.00000
-7         0.14639      host ceph03                           
 6    hdd  0.04880          osd.6        up   1.00000  1.00000
 7    hdd  0.04880          osd.7        up   1.00000  1.00000
 8    hdd  0.04880          osd.8        up   1.00000  1.00000

到这里ceph的部署就结束了

05-22 15:47