背景
很多集群的问题,最后都落在资源配置上:
- requests 太高,调度不进去
- requests 太低,服务被抢占导致抖动
- limits 太严,CPU 被频繁 throttling
基本策略
- 先测业务基线,再填 requests
- CPU limits 结合业务特性决定是否设置
- 内存 limits 必须有,否则容易把节点拖垮
resources:
requests:
cpu: "300m"
memory: "512Mi"
limits:
cpu: "1000m"
memory: "1Gi"
观测指标
建议持续看:
container_cpu_cfs_throttled_seconds_totalcontainer_memory_working_set_bytes- Pod OOMKilled 次数
总结
资源参数不是一次性配置,而是持续调优过程。
用监控数据驱动参数调整,比凭经验拍数值更靠谱。
资源治理本质是容量治理,最终影响的是可用性和成本。