摘要:
CPU softlockup(软锁定)是 Linux 内核 watchdog 机制报出的“某颗 vCPU 在内核态连续 20 s(默认)没有发生任务切换”的异常。本质是:内核线程/中断上下文长时间关抢占(或死循环),导致该核上的 watchdog 线程得不到调度,从而在日志里打印 watchdog: 阅读全文
posted @ 2025-11-12 16:01
滴滴滴
阅读(36)
评论(0)
推荐(0)
摘要:
B. 参数调优(增强抗抖动能力) 以 static-pod 方式启动的 etcd,修改 /etc/kubernetes/manifests/etcd.yaml: yaml 复制 # 在 command 数组里追加或修改 - --heartbeat-interval=300 # 默认 100ms → 阅读全文
posted @ 2025-11-12 15:36
滴滴滴
阅读(9)
评论(0)
推荐(0)
摘要:
最佳实践与监控 推荐配置组合 生产环境建议配置: 配额值:物理内存的50%(不超过8GB) 自动压缩:保留24小时数据 快照策略:每小时1次,保留最近5份 关键监控指标 etcd_debugging_mvcc_db_total_size_in_bytes:当前存储大小 etcd_server_quo 阅读全文
posted @ 2025-11-12 15:28
滴滴滴
阅读(14)
评论(0)
推荐(0)
摘要:
是的,kubectl get events 看到的所有事件(Event 对象)默认都存储在 etcd 里,具体路径为/registry/events/<namespace>/<event-name>。 每个事件以 Protobuf 格式落盘,etcd 键值对方式保存。 默认 TTL 1 小时(kub 阅读全文
posted @ 2025-11-12 15:27
滴滴滴
阅读(6)
评论(0)
推荐(0)
摘要:
压缩+碎片整理(逐节点执行,先压缩后整理,避免并发) bash 复制 for ep in ${ENDPOINTS//,/ }; do echo "==> working on $ep" # 取得当前 revision REV=$(etcdctl --endpoints=$ep endpoint st 阅读全文
posted @ 2025-11-12 15:07
滴滴滴
阅读(12)
评论(0)
推荐(0)
摘要:
在 Elasticsearch(ES)中,如果主分片损坏,但某个副本分片的数据是最新的,集群会自动将该副本提升为新的主分片,无需人工干预。这是 ES 内置的高可用机制的一部分。 自动提升流程如下: 节点故障检测集群检测到主分片所在节点宕机或主分片损坏,将其标记为不可用。 副本提升为主分片如果存在同步 阅读全文
posted @ 2025-11-12 14:25
滴滴滴
阅读(9)
评论(0)
推荐(0)
摘要:
2. RED 状态还能修复吗? 答案是:大多数情况下可以修复,但取决于根本原因。 可修复的情况: 节点临时下线后重新启动。 磁盘空间清理后。 分片分配被禁用后重新启用。 主分片损坏,但存在一个完好的副本分片(此时该副本分片可以提升为新的主分片)。 难以修复或可能造成数据丢失的情况: 承载主分片的节点 阅读全文
posted @ 2025-11-12 14:13
滴滴滴
阅读(11)
评论(0)
推荐(0)
摘要:
POST _cluster/reroute { "commands": [ { "cancel": { "index": "my_index", "shard": 0, "node": "node_id_of_bad_replica" } }, { "allocate_replica": { "in 阅读全文
posted @ 2025-11-12 13:57
滴滴滴
阅读(9)
评论(0)
推荐(0)
摘要:
重启节点会触发集群重新进行主分片选举(master election)和分片分配(shard allocation),如果检测到某个主分片损坏,但副本分片完好,集群会自动将副本提升为新的主分片 1. 主分片损坏 ≠ 数据丢失 在 Elasticsearch 中: 每个索引被分成多个 主分片(prim 阅读全文
posted @ 2025-11-12 11:28
滴滴滴
阅读(6)
评论(0)
推荐(0)
摘要:
bash 复制 PUT _cluster/settings { "persistent": { "cluster.routing.allocation.enable": "all" } } 总结一句话: 这个命令的作用是:允许 Elasticsearch 集群为所有分片(主分片和副本分片)进行分配, 阅读全文
posted @ 2025-11-12 10:52
滴滴滴
阅读(6)
评论(0)
推荐(0)
摘要:
方法一:使用 Reindex API(在线、无缝) 这是官方推荐的方式,可以在集群在线、服务基本不受影响的情况下完成。 步骤: 创建新索引 使用新的分片数量配置创建一个新的索引。你可以在这里调整 number_of_shards,也可以同时调整其他设置(如副本数、字段类型等)。 json PUT / 阅读全文
posted @ 2025-11-12 10:16
滴滴滴
阅读(14)
评论(0)
推荐(0)
摘要:
为什么Local Persistent Volume可以解决这个问题? Local Persistent Volume(Local PV)允许将节点上的本地磁盘作为持久化存储资源提供给集群使用。与hostPath不同,Local PV是持久化存储的一种,它提供了更好的持久性保证。 使用Local P 阅读全文
posted @ 2025-11-12 09:55
滴滴滴
阅读(7)
评论(0)
推荐(0)
浙公网安备 33010602011771号