背景

etcd 长期写删后会出现内部碎片,导致磁盘占用与 I/O 开销上升,影响 API Server 响应。

维护策略

  1. 监控数据库大小与可回收空间比例。
  2. 在低峰期执行 defrag,分节点滚动处理。
  3. 与快照备份策略联动,确保可回滚。

风险控制

  • 禁止在控制面高峰窗口集中 defrag。
  • 每次操作后验证 leader 稳定性与请求延迟。
  • 把维护结果写入变更审计。

小结

etcd 维护是平台稳定性的基础工。把 defrag 变成制度化窗口操作,能显著降低控制面长尾风险。