Jewel版cephfs,在磁盘满过一次后一直报"mon.node3 low disk space"
很奇怪。默认配置磁盘使用率超过70%才会报这个。但osd的使用率根本没这么大。
但是一看/boot目录已经超过70%,但另外的一个ceph集群/boot也超过70%但是没报错。
真是奇怪。

查看代码DataHealthService.cc,于此有关的配置是mon_data_avail_warn

掩耳盗铃的改法:

分别在所有节点上执行如下命令:

ceph daemon mon.node2 config set mon_data_avail_warn 10

其中mon.node2改成当前节点名。

此命令表示当剩余空间小于10%之后才告警。

结果

$ ceph daemon mon.node1 config set mon_data_avail_warn 10
{
    "success": "mon_data_avail_warn = '10' (unchangeable) "
}

也就是说动态修改mon_data_avail_warn是不生效的。所以我们需要写到配置文件中

vim /etc/ceph/ceph.conf

添加如下一句:

mon_data_avail_warn = 10

然后重启ceph-mon,再看,已经ok了。

systemctl restart ceph-mon@node1

但是,因为查询出来的磁盘只有/boot的使用率超过了70%,说明ceph认为/boot超过70%有问题,如果要彻底解决还是需要清理一下/boot目录

清理/boot目录的方法

### 查看当前用的系统版本是什么
[root@node1 boot]# uname -a
Linux node1 3.10.0-1160.21.1.el7.x86_64 #1 SMP Tue Mar 16 18:28:22 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

### 查看系统安装了什么版本
[root@node1 boot]# rpm -qa | grep ker
kernel-3.10.0-957.27.2.el7.x86_64
kernel-tools-libs-3.10.0-1160.21.1.el7.x86_64
kernel-tools-3.10.0-1160.21.1.el7.x86_64
kernel-3.10.0-327.el7.x86_64
kernel-3.10.0-1160.21.1.el7.x86_64

### 卸载没有用到的版本
[root@node1 boot]# yum remove kernel-3.10.0-327.el7.x86_64
[root@node1 boot]# yum remove kernel-3.10.0-957.27.2.el7.x86_64
### 等一段时间,ceph的警告消失
posted on 2021-09-02 18:44  步孤天  阅读(1381)  评论(0)    收藏  举报