Service Mesh 的超时与重试预算:避免放大故障

事故模式 下游抖动时,上游大量重试,导致下游雪上加霜,最终全链路崩溃。表面看是“下游慢”,本质是“重试风暴”。 核心思路:重试预算 对每个服务设定单位时间最大重试量。 预算耗尽后只允许失败快返,不再重试。 将预算按调用优先级分层。 参数实践 请求总超时必须小于上游超时预算。 单次重试间隔采用指数退避 + 抖动。 只对幂等请求开启自动重试。 指标面 retry_attempts_total retry_budget_remaining upstream_timeout_rate outlier_ejection_count 小结 超时、重试、熔断必须联动配置。没有预算约束的重试机制,最终一定把局部故障放大成系统性故障。

2026年5月9日 · 1 分钟 · BvBeJ