成本高不一定是机器贵

很多集群成本高,核心原因是资源配置粗放:

  • request 远大于实际使用
  • HPA 指标失真导致过度扩容
  • 长尾任务长期占用节点

第一件事:拉齐 request 和真实负载

建议先看 7 到 14 天数据,按 P95 使用量设置 request,再保留安全余量。盲目按峰值配置,浪费通常最大。

第二件事:把弹性策略拆开

  • 在线服务:偏稳定,防抖优先
  • 离线任务:可抢占,成本优先

把工作负载分层后,调参会清晰很多。

第三件事:节点池治理

  • 基础池用稳定机型承载核心服务
  • 弹性池接临时流量和批任务
  • 定期清理空转节点

额外收益点

  • 镜像瘦身缩短拉取时间
  • 减少跨可用区流量
  • 对低优先级任务使用 Spot/抢占实例

小结

成本优化不是一次性动作,而是持续运营。先让容量模型可信,再谈更激进的降本策略。