成本高不一定是机器贵
很多集群成本高,核心原因是资源配置粗放:
- request 远大于实际使用
- HPA 指标失真导致过度扩容
- 长尾任务长期占用节点
第一件事:拉齐 request 和真实负载
建议先看 7 到 14 天数据,按 P95 使用量设置 request,再保留安全余量。盲目按峰值配置,浪费通常最大。
第二件事:把弹性策略拆开
- 在线服务:偏稳定,防抖优先
- 离线任务:可抢占,成本优先
把工作负载分层后,调参会清晰很多。
第三件事:节点池治理
- 基础池用稳定机型承载核心服务
- 弹性池接临时流量和批任务
- 定期清理空转节点
额外收益点
- 镜像瘦身缩短拉取时间
- 减少跨可用区流量
- 对低优先级任务使用 Spot/抢占实例
小结
成本优化不是一次性动作,而是持续运营。先让容量模型可信,再谈更激进的降本策略。