性能 | BvBeJ的小站

为什么会积压很多服务写了 worker pool，但上线后仍然：高峰时队列暴涨平均延迟还行，P99 很差 CPU 没打满却开始超时这通常是“入队速率 > 出队速率”的背压问题。基础模型 type Job struct { ID string } func startPool(ctx context.Context, n int, jobs <-chan Job) { for i := 0; i < n; i++ { go func() { for { select { case <-ctx.Done(): return case job, ok := <-jobs: if !ok { return } handle(job) } } }() } } 结构不复杂，难点在参数选择。三个观测指标吞吐：每秒处理多少请求延迟：P50/P95/P99 队列深度：channel 长度趋势如果队列长期接近上限，说明处理能力不足或外部依赖抖动。调优顺序固定业务流量，先找单 worker 处理能力逐步增加 worker，观察 P99 与 CPU 变化达到拐点后停止扩容，避免锁竞争和上下文切换过量设置拒绝策略，不让队列无限增长一个实用策略快速失败：队列满时直接返回可重试错误分级队列：高优先级任务单独通道限时执行：每个任务绑定 context 超时总结 worker pool 不是“越大越好”。并发数本质是资源预算，必须和外部依赖能力、延迟目标一起设计。