CEPH-3：cephfs功能详解

ceph集群cephfs使用详解

一个完整的ceph集群，可以提供块存储、文件系统和对象存储。

本节主要介绍文件系统cephfs功能如何灵活的使用，集群背景：

[[email protected] ~]$ ceph -s
  cluster:
    id:     f0a8789e-6d53-44fa-b76d-efa79bbebbcf
    health: HEALTH_OK

  services:
    mon: 1 daemons, quorum a (age 24h)
    mgr: a(active, since 14h)
    mds: cephfs:1 {0=cephfs-a=up:active} 1 up:standby-replay
    osd: 1 osds: 1 up (since 24h), 1 in (since 26h)
    rgw: 1 daemon active (my.store.a)

  data:
    pools:   10 pools, 200 pgs
    objects: 719 objects, 1.3 GiB
    usage:   54 GiB used, 804 GiB / 858 GiB avail
    pgs:     200 active+clean

  io:
    client:   852 B/s rd, 1 op/s rd, 0 op/s wr

cephfs文件系统介绍

cephfs介绍

cephfs即ceph filesystem，是一个基于ceph集群且兼容POSIX标准的文件共享系统，创建cephfs文件系统时需要在ceph集群中添加mds服务。cephfs支持以内核模块方式加载也支持fuse方式加载。无论是内核模式还是fuse模式，都是通过调用libcephfs库来实现cephfs文件系统的加载。

fuse用户态和kernel内核态两种挂载cephfs的优劣式：

fuse 客户端最容易与服务器做到代码级的同步，但是内核客户端的性能通常更好。
这两种客户端不一定会提供一样的功能，如 fuse 客户端可支持客户端强制配额，但内核客户端却不支持。
遇到缺陷或性能问题时，最好试试另一个客户端，以甄别此缺陷是否特定于客户端

mds组件介绍

mds是该服务负责处理POSIX文件系统中的metadata部分，实际的数据部分交由ceph集群中的OSD处理，mds提供了一个带智能缓存层的共享型连续文件系统，可以大大减少 OSD 读写操作频率。

cephfs元数据使用的动态子树分区，把元数据划分名称空间下对应到不同的mds，写入元数据的时候将元数据按照名称保存到不同主mds上，类似于nginx中的缓存目录分层。
CEPH-3：cephfs功能详解-LMLPHP

cephfs工作流程

创建cephfs时会指定两个存储池，一个专门来存储元数据，一个专门来存储实际文件；
客户端在写(读)文件时，首先写(读)mds服务缓存中文件的元数据信息，当然保存在mds的元数据最终还是要落盘到osd pool中的；
mds和rados之间通过journal metadate交互，这个journal是记录文件写入日志的，这个也是存放到OSD当中；
最终客户端得到元数据信息，获取rados对某个文件的IO操作，实现文件读写。

cephfs状态查看

$ ceph fs status
cephfs - 0 clients
======
+------+----------------+----------+---------------+-------+-------+
| Rank |     State      |   MDS    |    Activity   |  dns  |  inos |
+------+----------------+----------+---------------+-------+-------+
|  0   |     active     | cephfs-a | Reqs:    0 /s |   30  |   25  |
| 0-s  | standby-replay | cephfs-b | Evts:    0 /s |   24  |   17  |
+------+----------------+----------+---------------+-------+-------+
+-----------------+----------+-------+-------+
|       Pool      |   type   |  used | avail |
+-----------------+----------+-------+-------+
| cephfs-metadata | metadata |  289k |  760G |
|   cephfs-data0  |   data   |  805  |  760G |
+-----------------+----------+-------+-------+
+-------------+
| Standby MDS |
+-------------+
+-------------+

$ ceph mds stat
cephfs:1 {0=cephfs-a=up:active} 1 up:standby-replay

cephfs使用演示

cephfs安装步骤已经通过上节部署文档中演示过，此处不再赘述，仅介绍本次演示所涉及到的pool名称：

$ ceph fs ls
name: cephfs, metadata pool: cephfs-metadata, data pools: [cephfs-data0 ]

$ ceph osd lspools
cephfs-metadata  #用来存放mds数据
cephfs-data0     #用来存放data数据

先通过第一种方法：以内核模块方式挂载（一般都用此种方式）

首先要确认内核模块是否加载

# lsmod | grep ceph
ceph                  363016  0
libceph               306750  2 rbd,ceph
dns_resolver           13140  1 libceph
libcrc32c              12644  4 xfs,libceph,nf_nat,nf_conntrack

先创建用来专门挂载的ceph用户

## 创建 client.mfan 用户，并授权可读 MON、可读写mds 和 可读写执行名称cephfs-data0的OSD
$ ceph auth add client.mfan mon 'allow r' mds 'allow rw' osd 'allow rwx pool=cephfs-data0'
added key for client.mfan

## 输出密钥
$ ceph auth get client.mfan -o /etc/ceph/ceph.client.mfan.keyring
exported keyring for client.mfan

## 测试访问集群
$ ceph -s --user mfan
  cluster:
    id:     f0a8789e-6d53-44fa-b76d-efa79bbebbcf
    health: HEALTH_OK

  services:
    mon: 1 daemons, quorum a (age 42h)
    mgr: a(active, since 33h)
    mds: cephfs:1 {0=cephfs-a=up:active} 1 up:standby-replay
    osd: 1 osds: 1 up (since 42h), 1 in (since 44h)
    rgw: 1 daemon active (my.store.a)

  data:
    pools:   10 pools, 200 pgs
    objects: 719 objects, 1.3 GiB
    usage:   55 GiB used, 803 GiB / 858 GiB avail
    pgs:     200 active+clean

  io:
    client:   852 B/s rd, 1 op/s rd, 0 op/s wr

获取用户名和密钥

$ ceph auth get client.mfan
exported keyring for client.mfan
[client.mfan]
	key = AQD600NibhPBJxAAzKeTOcQ17xaPhEdZ8npehg==
	caps mds = "allow rw"
	caps mon = "allow r"
	caps osd = "allow rwx pool=cephfs-data0"

命令行挂载cephfs，有两种方式：

第一种：

## 挂载
# mount -t ceph 10.153.204.13:6789:/ /home/cephfs-data/ -o name=mfan,secret=AQD600NibhPBJxAAzKeTOcQ17xaPhEdZ8npehg==
参数说明：
 -o：指定挂载参数
 name：认证用户
 secret：用户密钥

# df -h | grep 'ceph-data'
10.153.204.13:6789:/                       760G     0  760G   0% /home/cephfs-data

第二种：

## 创建用户secret文件
# ceph auth get-key client.mfan > /etc/ceph/mvfan.secret

## 使用secret文件挂载
# mount -t ceph 10.153.204.13:6789:/ /home/cephfs-data2/ -o name=mfan,secretfile=/etc/ceph/mvfan.secret

测试读写

## 测试写
# dd if=/dev/zero of=/home/ceph-data/test.dbf bs=8k count=200000 conv=fdatasync
200000+0 records in
200000+0 records out
1638400000 bytes (1.6 GB) copied, 4.93594 s, 332 MB/s

## 测试读
# dd if=/home/ceph-data/test.dbf of=/dev/null bs=4k count=100000000
400000+0 records in
400000+0 records out
1638400000 bytes (1.6 GB) copied, 1.18977 s, 1.4 GB/s

加入fstab中

echo "10.153.204.13:6789:/ /home/ceph-data ceph \
name=mfan,secret=AQD600NibhPBJxAAzKeTOcQ17xaPhEdZ8npehg==,_netdev,noatime 0 0" >> /etc/fstab

再通过第二种方法：以fuse方式方式挂载

需要先安装ceph-fuse包

yum install -y ceph-fuse

执行挂载

# ceph-fuse -m 10.153.204.13:6789 /home/cephfs-data
ceph-fuse[9511]: starting ceph client2022-03-30T17:25:00.938+0800 7fc7431f7f80 -1 init, newargv = 0x55d4924a7b60 newargc=9
ceph-fuse[9511]: starting fuse

# ps -ef | grep fuse
root       9511      1  0 17:25 pts/1    00:00:00 ceph-fuse -m 10.153.204.13:6789 /home/cephfs-data

# df -Th | grep cephfs-data
ceph-fuse                                 fuse.ceph-fuse  759G  2.2G  757G   1% /home/cephfs-data

卸载命令

fusermount -u /home/cephfs-data/

Running的菜鸟