大家在通过rook搭建ceph集群的过程中,可能会出现首次搭载失败的情况,那么就需要卸载重新搭建,那么可能就会出现osd读取不到

1、如:2025-09-28 06:20:06.661890 W | cephosd: skipping OSD configuration as no devices matched the storage settings for this node "k-master3"

答:此类问题主要是磁盘清理不干净,我们通过官方文档可以看到

dd if=/dev/zero of="$DISK" bs=1K count=200 oflag=direct,dsync seek=0 # Clear at offset 0

此处切记,如果你是vmware的测试环境,最好的方法是在虚拟机编辑窗口直接移除裸盘重新添加一次,如果你认为这没技术,那么官方的命令,是逐步执行所有磁盘,否则你会出现无法清理干净的情况,上链接(进入可以选择不同的版本):https://rook.io/docs/rook/v1.18/Getting-Started/ceph-teardown/#zapping-devices

2、如:clientprofiles.csi.ceph.io 该crds无法卸载

如果这个删除不掉,我相信你已经试了很多方法,那么你可以试试这个kubectl edit clientprofile.csi.ceph.io -n rook-ceph,进入后把finalizers的值清空

metadata:
  creationTimestamp: "2025-09-28T06:18:56Z"
  finalizers:
  - csi.ceph.com/cleanup  ###这一行清理掉
  generation: 1

如果这个清理不掉,会导致空间rook-ceph也清理不掉
 

3、如:集群出现不稳定,例如mgr、mon频繁重启

这个的问题我觉得是出现在了你使用nvme0n2这种类型的磁盘,与1.11.0版本不兼容的情况,容器日志会持续的提示时钟不对或者豆包会告诉你是就绪探针时间太短,但是这个版本是不能配置探针的或者说是我不会,不用管他换个高版本的ceph,你可以使用1.18的版本,该版本能够避免这个问题

最后祝愿各位能够搭建成功,有问题可以留言

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐