MongoDB（WiredTiger 引擎）写入丢失 / crash 后的故障排查清单

🛠 故障排查清单（针对未被 majority ack 的写入丢失 / crash）

检查客户端写 Concern：
- 是否使用了 w:1 或 j:false？ → 这种情况下，crash 后丢失未 flush 的写入是预期行为。
- 是否要求了 majority？如果丢失，需要进一步调查。
检查 MongoDB 日志（mongod.log）：
- 查找 crash 前是否有 WT_LOG、journal commit、fsync 或 checkpoint 相关输出。
- 注意异常日志（E STORAGE、W WiredTiger）。

定位文件：${dbPath}/journal/WiredTigerLog.*
- 按编号递增，最新文件通常是 WiredTigerLog.NNNNN.
使用 WiredTiger 工具（MongoDB 自带 wt 可执行程序，通常在 bin 目录下）：
- 查看 journal 内容：
```
wt -h /path/to/dbPath printlog > wiredtiger_log.txt
```
  - printlog 会解码 journal 文件，输出事务记录（包括 txn id、commit、操作详情）。
  - 可以 grep 丢失文档 _id 或 collection name。
- 按时间过滤：
```
grep "optype" wiredtiger_log.txt
```
  - 查找 commit 记录，确认事务是否已写入日志。
判断是否 flush：
- 如果在 log 中能看到事务记录，但 crash 后集合里没有 → 说明事务尚未 checkpoint，并且 journal replay 未执行（可能 log 损坏，或 recovery 被跳过）。
- 如果 log 里没有 → 事务压根没 commit，或 commit 前 crash。

重启 mongod 时，MongoDB 会自动调用 WiredTiger recovery：
- 在 mongod.log 中搜索：
```
WiredTiger message [timestamp]: [recovery log scan ...]
WiredTiger message [timestamp]: WiredTiger recovery complete
```
- 确认 recovery 是否扫描了 journal 并应用 log。
如果发现 recovery 跳过了某些日志文件：
- 可能是 log 损坏 / 校验失败 → 可以尝试手动 wt -h <dbpath> salvage，但注意可能导致数据丢失或 collection 损坏。

丢失情况分类：
1. 业务集合写入 + oplog 均丢失 → 事务未 commit 或 rollback。
2. 业务集合有写入，但 oplog 丢失 → 非常严重，可能存储层 bug；需要看 printlog 是否存在 oplog 插入的记录。
3. 业务集合 + oplog 都写了，但 crash 后都丢失 → checkpoint 未完成，journal flush 未执行，属于未持久化数据。
4. Secondary 已有 oplog，但 Primary 丢失 → Primary crash 未恢复数据，需要 re-sync。

posted @ 2025-09-28 15:24 NeoLshu 阅读(19) 评论(0) 收藏举报来源

刷新页面返回顶部