Ceph分布式存储解决方案汇总

混合硬件架构方案建议

考虑成本，选择SSD与HDD混合硬件架构

方案一：使主本数据放在SSD OSD，副本数据放在HDD OSD，编写新的crush rule
方案二：存储池分配优先级，通过编写crush rule来实现，冷热数据分离
方案三：分层存储，ceph缓存代理技术
方案四：SSD固态盘分配block_db和block_wal分区做加速

Ceph最佳实践

节点硬件配置

OSD节点配置

针 IOPS 密集型场景，服务器配置建议如下：
OSD：每个 NVMe SSD 上配置四个 OSD（lvm）。
Controller：使用 Native PCIe 总线。
网络：12osd/万兆口
内存：16G + 2G/osd
CPU：5c/ssd

针对高吞吐量型，服务器配置建议如下：
OSD: HDD/7200转
网络：12osd/万兆口
内存：16G + 2G/osd
CPU：1c/hdd

针对高容量型，服务器配置建议如下：
OSDs: HDD/7200转
网络：12osd/万兆口
内存：16G + 2G/osd
CPU：1c/hdd

CPU中的1C = 1GHz

其它各节点配置：
MDS：4C/2G/10Gbps
Monitor：2C/2G/10Gbps
Manager：2C/2G/10Gbps
Bluestore 下：slow、 DB 和 WAL 的配比
slow(SATA):DB(SSD):WAL(NVMe SSD)=100:1:1

ceph集群实践方案

硬件推荐

以1PB为例,高吞吐量型

OSD节点
数量：21
CPU：16c
内存：64G
网络：10Gbps * 2
硬盘：7200转HDD/4T * 12 （12个OSD + 1个系统）
系统：Ubuntu 18.04

Monitor节点
数量：3
CPU：2c
内存：2G
网络：10Gbps * 2
硬盘：20G
系统：Ubuntu 18.04

Manager节点
数量：2
CPU：2c
内存：2G
网络：10Gbps * 2
硬盘：20G
系统：Ubuntu 18.04

MDS(对于cephFS)
数量：2
CPU：4c
内存：2G
网络：10Gbps * 2
硬盘：20G
系统：Ubuntu 18.04

Intel硬件方案白皮书

PCIe/NVMe固态盘：机械硬盘 1:12。英特尔PCIe/NVMe P3700用作日志盘

SATA固态盘：机械硬盘 1:4。英特尔SATA P3700用作日志盘

	良好配置	更好配置	最好配置
CPU	英特尔至强处理器 E5-2650v3	英特尔至强处理器 E5-2690	英特尔至强处理器 E5-2699v3
网卡	10GbE	10GbE * 2	10GbE4 + 2 40GbE
驱动器	1 * 1.6TB P3700 + 12 * 4T SAS（1:12)(P3700用于日志和高速缓存驱动器）	1 * 800GB P3700 + 4*1.6TB S510(P3700用于日志和高速缓存驱动器）	4-6 个 2TB P3700
内存	64GB	128GB	>=128GB

PCIe/NVMe固态盘可用作日志驱动器，大容量低成本SATA固态盘用作OSD数据驱动器。对于需要较高性能、尤其使需要较高IOPS和SLA且具有中等存储容量要求的用例/应用，该配置最为经济高效

参考：面向Ceph部署的英特尔解决方案

Ceph性能优化的新方法和思路

redhat官网给出不同应用场景时，其推荐的Ceph集群服务器硬件配置（包括CPU/Memory/Disk/Network）。仅作为服务器配置选择时参考，不做推荐使用。

场景包含如下：

场景：一侧重IOPS的（IOPS低延迟），例如实时性要求高的，但数据量不大的。比如订单的生成。

场景二：侧重Throughput的（吞吐量优先），吞吐量大，但IOPS延时性要求适当。例如，实时流。

场景三：侧重容量和价格Cost/Capacity的（大存储量），例如大文件的存储。

Red Hat CEPH 部署硬件配置指导

企业ceph 应用版本选择以及采用ssd+sata 应用bulestore引擎的建议

（1）一般LTS版本是当前年份往过去退2年左右，所以，现在的稳定版是M版mimic。
（2）wal 是 RocksDB 的write-ahead log, 相当于之前的 journal 数据，db 是 RocksDB 的metadata 信息。在磁盘选择原则是 block.wal > block.db > block。当然所有的数据也可以放到同一块盘上。
（3）默认情况下， wal 和 db 的大小分别是 512 MB 和 1GB，官方建议调整block.db 是主设备 4% ，而block.wal分为6%左右，2个加起来10%左右。

ceph 分布式存储硬件规划以及运维的考虑

https://www.talkwithtrend.com/Question/433987?order=rec

关于Ceph性能优化与硬件选型|万字长文

http://vlambda.com/wz_x6mXhhxv3M.html

SSD固态硬盘的接口类型

SATA
PCI-E
NVMe

https://blog.csdn.net/shuai0845/article/details/98330290

配置表1

为了使ceph集群运行的更稳定，综合性价比，做出如下的硬件配置:

名称	数量	说明
OS Disk	2*600G SAS (SEAGATE 600GB SAS 6Gbps 15K 2.5英寸)	根据预算选择SSD、SAS、SATA。RAID 1 ，防止系统盘故障，引发ceph集群问题
OSD Disk	8*4T SAS (SEAGATE 4T SAS 7200)	根据预算选择SAS或者SATA盘，每台物理机配置8块4T磁盘，用于存放数据。NoRAID
Monitor Disk	1*480G SSD (Intel SSD 730 series)	用于monitor 进程的磁盘，选择ssd，速度更快
Journal Disk	2*480G SSD (Intel SSD 730 series)	ssd磁盘，每块分4个区，对应4个osd，一台节点总计8个journal分区，对应8个osd。NoRAID
CPU	E5-2630v4 * 2	综合预算，选择cpu,越高越好
Memory	>=64G	综合预算，不差钱上128G内存
NIC	40GB * 2 光口 + 公网IP	40GB网卡可以保证数据同步速度（前端网络和后端网络）

CPU

每一个osd守护进程至少有一个cpu核
计算公式如下：

((cpu sockets * cpu cores per socket * cpu clock speed in GHZ)/No. of OSD) >= 1
 
Intel Xeon Processor E5-2630 V4(2.2GHz,10 core)计算：
  1 * 10 * 2.2 / 8 = 2.75  #大于1, 理论上能跑20多个osd进程，我们考虑到单节点的osd过多，引发数据迁移量的问题，所以限定了8个osd进程

内存

1个osd进程至少需要1G的内存，不过考虑到数据迁移内存占用，建议1个osd进程预配2G内存。
在作数据恢复时1TB数据大概需要1G的内存，所以内存越多越好

磁盘

系统盘

根据预算选择ssd、sas、sata磁盘，必须做raid，以防因为磁盘引发的宕机

OSD 磁盘

综合性价比，选择sas或者sata磁盘，每块大小4T。如果有io密集型的业务，也可单独配备性能更高的ssd作为osd磁盘，然后单独划分一个region

Journal 磁盘

用于日志写入，选择ssd磁盘，速度快

Monitor 磁盘

用于运行监控进程的磁盘，建议选择ssd磁盘。如果ceph的monitor单独运行在物理机上，则需要2块ssd磁盘做raid1，如果monitor与osd运行在同一个节点上，则单独准备一块ssd作为monitor的磁盘

NIC

一个osd节点是配置2块10GB网卡，一个作为public网络用于管理，一个作为cluster网络用于osd之间的通信

参考：

ceph-硬件配置

ceph 硬件选型、性能调优

1、应用场景挑选

IOPS低延迟——块存储
吞吐量优先——块存储、文件系统、对象存储
大存储量——对象存储、文件系统

2、硬件选型建议与调优

CPU：一个OSD进程分配一个CPU核【(（cpu sockets * cpu cores per soket * cpu clock speed in GHZ) /No.Of OSD)>=1】
内存：一个OSD进程至少分配1GB，恢复数据时1TB占1GB内存，所以最好是分配2G RAM；节点上有mon和mds进程需要考虑分配2GB以上或更多的内存空间。RAM越高，cephfs性能越好
网卡：大型集群(数十个节点)应使用万兆网卡。数据恢复和重新平衡期间，网络很重要，如果有10G的网络会缩短集群恢复的时间。集群节点内，建议使用双网卡，考虑分离cilent和cluster网络
硬盘：SSD做日志盘，10-20GB；建议4个OSD数据盘配一个SSD；SSD选择：Intel SSD DC S3500 Series。

在sata/sas ssd上获取高性能，ssd和osd的比例应该为1:4,也就是说4个OSD数据硬盘可共享一个ssd

PCIe或者NVMe闪存设备的情况取决也设备性能，ssd和osd壁垒可以达到1：12或者1:18
OSD节点密度。osd数据分区Ceph osd节点的密度也是影响集群性能、可用容量和TCO的一个重要因素，一般来说大量的小容量量节点比少量的大容量节点要好
BIOS开启VT和HT；关闭节能；关闭NUMA

3、操作系统调优

read_ahead, 通过数据预读并且记载到随机访问内存方式提高磁盘读操作
最大进程数调整
关闭交换分区
SSD的IO调度使用：NOOP 机械的IO调度使用：deadline
CPU频率
cgroups——使用cgroup绑定ceph的CPU，以及限制内存

4、网络调优

MTU设置9000
手动设置中断亲和或者使用irqbalance
打开TOE：ethtool -K ens33 tso on
RDMA
DPDK

5、ceph调优

PG数调整【Total_PGs=(Total_numbers_of_OSD * 100) / max_replication_count】
client参数
OSD参数
-recovery tuning参数

Ceph性能优化总结v0.94

配置表2

适用场景：热数据应用/虚拟化场景

设备	具体配置	数量
CPU	Intel Xeon E5-2650 v3	2
内存	64G DDR4	4
OS盘	2.5英寸Intel S3500系列 240GB SSD（RAID1）	2
SSD盘	Intel S3700 400GB	12
万兆网卡	Intel 双口万兆（含多模模块）	2

选型考虑

Ceph软件版本对比

版本号具有三个组成部分xyz。 x标识释放周期（例如，模仿为13）。 y标识发布类型：

x.0.z-开发版本（面向早期测试者）
x.1.z-候选发布版（对于测试集群用户）
x.2.z-稳定/错误修正版本（针对用户）

	luminous 12	mimic 13	nautilus 14	Octopus 15
date	2017.10	2018.5	2019.3	2020.3
version	12.2.x	13.2.x	14.2.x	15.2.x
dashboard	v1 没有管理功能	v2 具有基本的管理功能	v2 具备更多的管理功能	Restful-API需要Python3支持
bluestore	支持	稳定支持	稳定支持	有改进和性能提升
kernel	4.4.z 4.9.z	4.9.z 4.14.z	4.9.z 4.14.z	CentOS8 4.14以上

注：每一个Ceph社区稳定版本(TLS版本)的发布更新周期一般为当前年份往过去退2年左右，也就是说2020年最新的稳定版本应该为mimic 13版本。生成环境建议使用mimic 13.2.x

Ceph O版本升级概况

硬件选型方案1

以服务器PowerEdge R720为例

设备	配置	数量	说明
CPU	Intel Xeon E5-2650 v3/E5-2630v4/E5-2690/Intel Xeon E5-2683 v4	2	英特尔至强系列处理器每个OSD守护进程分配1 cores
Memory	>=64G		每个OSD守护进程分配1G-2G，进程占用和数据迁移恢复占用内存，内存越大越好
OS Disk	Intel DC S3500 240GB 2.5英寸	2	RAID1（系统盘镜像冗余，防止系统盘故障，引发ceph集群问题
OSD Disk	Intel DC S4500 1.9TB 2.5英寸	12	NORAID bluestore部署
NIC	千兆网卡+双口万兆（多模光纤）	3	1个公网IP+前端网络(Public Network)+后端网络(Cluster Network)

注：针 IOPS 密集型场景，全部基于SSD进行构建，保证性能最优的同时并充分发挥bluestore针对于SSD的特性优化，而且利于部署和后期集群的维护，且有效降低运维的难度。另外全闪存的应用场景还必须考虑使用到更高性能的CPU。不过因为全部用SSD固态硬盘部署，预算的硬件成本会很高

硬件选型方案2

设备	配置	数量	说明
CPU	Intel Xeon E5-2650 v3/E5-2630v4/E5-2690/Intel Xeon E5-2683 v4	2	英特尔至强系列处理器每个OSD守护进程分配1 cores
Memory	>=64G		每个OSD守护进程分配1G-2G，守护进程和数据迁移恢复占用内存，内存越大越好
OS Disk	SSD / HDD 240GB 2.5英寸	2	RAID1（系统盘的镜像冗余)
SSD Disk	Intel DC P3700 2TB (1:12)	2	bulestore日志和高速缓存驱动器；cache pool缓冲存储池
HDD Disk	4T SAS / SATA HDD 2.5英寸	12	NORAID，用于OSD的数据存储
NIC	千兆网卡+双口万兆（多模光纤）	3	1个公网IP+前端网络(Public Network)+后端网络(Cluster Network)

注：针 IOPS 密集型场景，由于使用选择SSD与HDD混合硬件方案，硬件成本会降低，但是性能上由于是混合硬盘方案，bluestore带来的性能优化特性可能不会很明显，还需要考虑混合架构的优化。且使用PCIe物理接口的固态硬盘，后期的硬件更换也是一个问题，也会导致Ceph集群运维难度的大大增加。

硬件选型方案3

设备	配置	数量	说明
CPU	Intel Xeon E5-2650 v3/E5-2630v4/E5-2690/Intel Xeon E5-2683 v4	2	英特尔至强系列处理器每个OSD守护进程分配1 cores
Memory	>=64G		每个OSD守护进程分配1G-2G，进程占用和数据迁移恢复占用内存，内存越大越好
OS Disk	Intel DC S3500 240GB 2.5英寸	2	RAID1（系统盘镜像冗余，防止系统盘故障，引发ceph集群问题
HDD Disk	7200转 4T SAS / SATA HDD 2.5英寸	12	NORAID，组成OSD的数据存储
NIC	千兆网卡+双口万兆（多模光纤）	3	1个公网IP+前端网络(Public Network)+后端网络(Cluster Network)

注：以1PB为例,高吞吐量型。OSD全部用HDD部署，系统盘SSD做RAID1保障冗余

硬件选型方案4

设备	配置	数量	说明
CPU	Intel Xeon E5-2650 v3/E5-2630v4/E5-2690	2	英特尔至强系列处理器每个OSD守护进程分配1 cores
Memory	>=64G		每个OSD守护进程分配1G-2G，进程占用和数据迁移恢复占用内存，内存越大越好
OS Disk	Intel DC S3500 240GB 2.5英寸	2	RAID1（系统盘镜像冗余，防止系统盘故障，引发ceph集群问题
SSD Disk	PCIe/NVMe 4T	2	一块用于创建cache pool，另一块分区用于给osd disk分配wal和db
HDD Disk	7200转 4T SAS / SATA HDD 2.5英寸	12	NORAID，组成data pool。用于OSD的数据存储
NIC	千兆网卡+双口万兆（多模光纤）	3	1个公网IP+前端网络(Public Network)+后端网络(Cluster Network)

注：使用混合硬盘方案，SSD 盘组成cache pool，HDD组成data pool。利用SSD性能优势，还可以用于部署bluestore时指定wal和db，给HDD osd disk提升性能。

硬件选型方案5

数据参考：鲲鹏分布式存储解决方案

Linux块层SSD cache方案:Bcache

bcache技术+bluestore引擎提升HDD+SSD混合存储的最大性能

安装bcache-tool
Linux升级到4.14.x内核
创建后端设备 make-bcache -B /dev/sdx
- 格式化bcache0
创建前端设备 make-bcache -C /dev/sdx
建立映射关系

bcache配置使用

OSD存储池启用压缩功能

ceph osd pool set compression_

硬件调优

NVMe SSD调优

目的

为减少数据跨片开销。
方法

将NVMe SSD与网卡插在统一Riser卡。

内存插法调优

目的

内存按1dpc方式插将获得最佳性能，即将DIMM0插满，此时内存带宽最大。
方法

优先插入DIMM 0，即插入DIMM 000、010、020、030、040、050、100、110、120、130、140、150插槽。三位数字中，第一位代表所属CPU，第二位代表内存通道，第三位代表DIMM，优先将第三位为0的插槽按内存通道从小到大依次插入。

系统调优

OS配置参数

参数名称	参数含义	优化建议	配置方法
vm.swappiness	swap为系统虚拟内存，使用虚拟内存会导致性能下降，应避免使用。	默认值：60修改完后是否需要重启：否现象：用到swap时性能明显下降修改建议：关闭swap内存的使用，将该参数设定为0。	执行命令sudo sysctl vm.swappiness=0
MTU	网卡所能通过的最大数据包的大小，调大后可以减少网络包的数量以提高效率。	默认值：1500 Bytes修改完后是否需要重启：否现象：可以通过ip addr命令查看修改建议：网卡所能通过的最大数据包的大小设置为9000 Bytes。	执行命令vi /etc/sysconfig/network-scripts/ifcfg-$(Interface)，并增加MTU="9000"说明：${Interface}为网口名称。完成后重启网络服务。service network restart
pid_max	系统默认的“pid_max”值为32768，正常情况下是够用的，但跑重量任务时会出现不够用的情况，最终导致内存无法分配的错误。	默认值：32768修改完后是否需要重启：否现象：通过cat /proc/sys/kernel/pid_max查看修改建议：设置系统可生成最大线程数为4194303。	执行命令echo 4194303 > /proc/sys/kernel/pid_max
file-max	“file-max”是设置系统所有进程一共可以打开的文件数量。同时一些程序可以通过setrlimit调用，设置每个进程的限制。如果得到大量使用完文件句柄的错误信息，则应该增加这个值。	默认值：13291808修改完后是否需要重启：否现象：通过cat /proc/sys/fs/file-max查看修改建议：设置系统所有进程一共可以打开的文件数量，设置为cat /proc/meminfo \| grep MemTotal \| awk '{print $2}' 所查看到的值。	执行命令echo ${file-max} > /proc/sys/fs/file-max说明：${file-max}为cat /proc/meminfo \| grep MemTotal \| awk '{print $2}' 所查看到的值。
read_ahead	Linux的文件预读readahead，指Linux系统内核将指定文件的某区域预读进页缓存起来，便于接下来对该区域进行读取时，不会因缺页（page fault）而阻塞。鉴于从内存读取比从磁盘读取要快很多，预读可以有效的减少磁盘的寻道次数和应用程序的I/O等待时间，是改进磁盘读I/O性能的重要优化手段之一。	默认值：128 kb修改完后是否需要重启：否现象：预读可以有效的减少磁盘的寻道次数和应用程序的I/O等待时间。通过/sbin/blockdev --getra /dev/sdb查看修改建议：通过数据预读并且记载到随机访问内存方式提高磁盘读操作，调整为8192 kb。	执行命令/sbin/blockdev --setra /dev/sdb说明：此处以“/dev/sdb”为例，对所有服务器上的所有数据盘都要修改。
I/O Scheduler	Linux I/O 调度器是Linux内核中的一个组成部分，用户可以通过调整这个调度器来优化系统性能。	默认值：CFQ修改完后是否需要重启：否现象：要根据不同的存储器来设置Linux I/O 调度器从而达到优化系统性能。修改建议：I/O调度策略，HDD设置为deadline，SSD设置为noop。	执行命令echo deadline > /sys/block/sdb/queue/scheduler说明：此处以“/dev/sdb”为例，对所有服务器上的所有数据盘都要修改。
nr_requests	在Linux系统中，如果有大量读请求，默认的请求队列或许应付不过来，幸好Linux 可以动态调整请求队列数，默认的请求队列数存放在“/sys/block/hda/queue/nr_requests”文件中	默认值：128修改完后是否需要重启：否现象：通过适当的调整nr_requests 参数可以提升磁盘的吞吐量修改建议：调整硬盘请求队列数，设置为512。	执行命令echo 512 > /sys/block/sdb/queue/nr_requests说明：此处以“/dev/sdb”为例，对所有服务器上的所有数据盘都要修改。

网络性能参数调优

注意具体的网卡型号来进行适度调优

irqbalance：关闭系统中断均衡服务；网卡中断绑核
rx_buff
ring_buff：增加网卡吞吐量
- 查看当前buffer大小：ethtool -g <网卡名称>
- 调整buffer大小：ethtool -G rx 4096 tx 4096
打开网卡lro功能

网卡中断绑核的步骤

# 查询网卡归属于哪个numa节点
cat /sys/class/net/<网口名>/device/numa_node

# lscpu命令查询该numa节点对应哪些CPU core

# 查看网卡中断号
cat /proc/interrupts | grep <网口名> | awk -F ':' '{print $1}'

# 将软中断绑定到该numa节点对应的core上
echo <core编号> > /proc/irq/<中断号>/smp_affinity_list

注：NUMA的功能最好一开始就在BIOS设置中关闭，可减少不必要的绑核操作！

Ceph调优

Ceph配置调优

ceph.conf

[global]#全局设置
fsid = xxxxxxxxxxxxxxx                           #集群标识ID 
mon host = 10.0.1.1,10.0.1.2,10.0.1.3            #monitor IP 地址
auth cluster required = cephx                    #集群认证
auth service required = cephx                           #服务认证
auth client required = cephx                            #客户端认证
osd pool default size = 3                             #最小副本数 默认是3
osd pool default min size = 1                           #PG 处于 degraded 状态不影响其 IO 能力,min_size是一个PG能接受IO的最小副本数
public network = 10.0.1.0/24                            #公共网络(monitorIP段) 
cluster network = 10.0.2.0/24                           #集群网络
max open files = 131072                                 #默认0#如果设置了该选项，Ceph会设置系统的max open fds
mon initial members = node1, node2, node3               #初始monitor (由创建monitor命令而定)
##############################################################
[mon]
mon data = /var/lib/ceph/mon/ceph-$id
mon clock drift allowed = 1                             #默认值0.05#monitor间的clock drift
mon osd min down reporters = 13                         #默认值1#向monitor报告down的最小OSD数
mon osd down out interval = 600      #默认值300      #标记一个OSD状态为down和out之前ceph等待的秒数
##############################################################
[osd]
osd data = /var/lib/ceph/osd/ceph-$id
osd journal size = 20000 #默认5120                      #osd journal大小
osd journal = /var/lib/ceph/osd/$cluster-$id/journal #osd journal 位置
osd mkfs type = xfs                                     #格式化系统类型
osd max write size = 512 #默认值90                   #OSD一次可写入的最大值(MB)
osd client message size cap = 2147483648 #默认值100    #客户端允许在内存中的最大数据(bytes)
osd deep scrub stride = 131072 #默认值524288         #在Deep Scrub时候允许读取的字节数(bytes)
osd op threads = 16 #默认值2                         #并发文件系统操作数
osd disk threads = 4 #默认值1                        #OSD密集型操作例如恢复和Scrubbing时的线程
osd map cache size = 1024 #默认值500                 #保留OSD Map的缓存(MB)
osd map cache bl size = 128 #默认值50                #OSD进程在内存中的OSD Map缓存(MB)
osd mount options xfs = "rw,noexec,nodev,noatime,nodiratime,nobarrier" #默认值rw,noatime,inode64  #Ceph OSD xfs Mount选项
osd recovery op priority = 2 #默认值10              #恢复操作优先级，取值1-63，值越高占用资源越高
osd recovery max active = 10 #默认值15              #同一时间内活跃的恢复请求数 
osd max backfills = 4  #默认值10                  #一个OSD允许的最大backfills数
osd min pg log entries = 30000 #默认值3000           #修建PGLog是保留的最大PGLog数
osd max pg log entries = 100000 #默认值10000         #修建PGLog是保留的最大PGLog数
osd mon heartbeat interval = 40 #默认值30            #OSD ping一个monitor的时间间隔（默认30s）
ms dispatch throttle bytes = 1048576000 #默认值 104857600 #等待派遣的最大消息数
objecter inflight ops = 819200 #默认值1024           #客户端流控，允许的最大未发送io请求数，超过阀值会堵塞应用io，为0表示不受限
osd op log threshold = 50 #默认值5                  #一次显示多少操作的log
osd crush chooseleaf type = 0 #默认值为1              #CRUSH规则用到chooseleaf时的bucket的类型
filestore xattr use omap = true                         #默认false#为XATTRS使用object map，EXT4文件系统时使用，XFS或者btrfs也可以使用
filestore min sync interval = 10                        #默认0.1#从日志到数据盘最小同步间隔(seconds)
filestore max sync interval = 15                        #默认5#从日志到数据盘最大同步间隔(seconds)
filestore queue max ops = 25000                        #默认500#数据盘最大接受的操作数
filestore queue max bytes = 1048576000      #默认100   #数据盘一次操作最大字节数(bytes
filestore queue committing max ops = 50000 #默认500     #数据盘能够commit的操作数
filestore queue committing max bytes = 10485760000 #默认100 #数据盘能够commit的最大字节数(bytes)
filestore split multiple = 8 #默认值2                  #前一个子目录分裂成子目录中的文件的最大数量
filestore merge threshold = 40 #默认值10               #前一个子类目录中的文件合并到父类的最小数量
filestore fd cache size = 1024 #默认值128              #对象文件句柄缓存大小
filestore op threads = 32  #默认值2                    #并发文件系统操作数
journal max write bytes = 1073714824 #默认值1048560    #journal一次性写入的最大字节数(bytes)
journal max write entries = 10000 #默认值100         #journal一次性写入的最大记录数
journal queue max ops = 50000  #默认值50            #journal一次性最大在队列中的操作数
journal queue max bytes = 10485760000 #默认值33554432   #journal一次性最大在队列中的字节数(bytes)
##############################################################
[client]
rbd cache = true #默认值 true      #RBD缓存
rbd cache size = 335544320 #默认值33554432           #RBD缓存大小(bytes)
rbd cache max dirty = 134217728 #默认值25165824      #缓存为write-back时允许的最大dirty字节数(bytes)，如果为0，使用write-through
rbd cache max dirty age = 30 #默认值1                #在被刷新到存储盘前dirty数据存在缓存的时间(seconds)
rbd cache writethrough until flush = false #默认值true  #该选项是为了兼容linux-2.6.32之前的virtio驱动，避免因为不发送flush请求，数据不回写
              #设置该参数后，librbd会以writethrough的方式执行io，直到收到第一个flush请求，才切换为writeback方式。
rbd cache max dirty object = 2 #默认值0              #最大的Object对象数，默认为0，表示通过rbd cache size计算得到，librbd默认以4MB为单位对磁盘Image进行逻辑切分
      #每个chunk对象抽象为一个Object；librbd中以Object为单位来管理缓存，增大该值可以提升性能
rbd cache target dirty = 235544320 #默认值16777216    #开始执行回写过程的脏数据大小，不能超过 rbd_cache_max_dirty

PG分布调优

参数名称	参数说明	优化建议
pg_num	Total PGs = (Total_number_of_OSD * 100) / max_replication_count，得出的结果向上取到最近的2的整数次幂。	默认值：8修改完后是否需要重启：否现象：pg数量太少的话会有warning提示。修改建议：根据计算公式具体计算得到的值
pgp_num	pgp数量设置为与pg相同。	默认值：8修改完后是否需要重启：否现象：pgp数量建议与pg数量相同修改建议：根据计算公式具体计算得到的值
ceph balancer mode	使能balancer均衡器插件，并设置均衡器插件模式为“upmap”。	默认值：none修改完后是否需要重启：否现象：若PG数量不均衡会出现个别OSD负载较大而成为瓶颈。修改建议：upmap

OSD绑核

在BIOS关闭NUMA，可跳过此步骤 https://blog.csdn.net/qq_34065508/article/details/103358812

绑核方法：

numactl
cgroup
taskset

Bcache使能调优

Bcache是Linux内核块层cache，它使用SSD来作为HDD硬盘的cache，从而起到加速作用。Bcache内核模块需要重新编译内核使能。

zlib硬件加速调优

硬件选型方案6

计算 CentOS7 最新版存储 CentOS8 最新版

硬件推荐列表

计算节点: R630 双CPU 1系统盘

存储节点内存根据所配容量计算每TB容量2GB内存 + 16GB缓存 1系统盘

存储节点3.5(SAS/SATA): R730/R720 (单CPU适用SATA/双CPU适用于多NVME高性能)
存储节点2.5(SATA/U2): R630(10盘位 SATAx6 U2x4)

硬盘推荐

HDD(企业级): 希捷或西数HDD
SATA-SSD(企业级): 英特尔S3610/S3710（MLC）三星PM883 镁光5200MAX
高性能 U2(可做存储盘): 英特尔P4600/P4500/P3700/P3600/P3500 三星PM963
高性能 PCI-E NVME(可做缓存盘): 傲腾905P/900P 英特尔/P4700/P3700 三星1725a/1725b

网卡:Mellanox ConnectX-3(支持RDMA)

计算节点

云平台，给客户虚拟机提供计算资源

节点数量：三台

硬件	配置
服务器	Dell R730
CPU	E5-2650 v3 * 2
内存	128GB
硬盘	系统盘（RAID1） + 对接后端的Ceph分布式存储
网卡	40G ib网卡（存储管理网络） + G口板载网卡双绑（出口网络）
OS	CentOS 7 最新版本
Kernel	默认内核

存储节点

对接云平台，提供分布式存储