背景

很多集群的问题,最后都落在资源配置上:

  • requests 太高,调度不进去
  • requests 太低,服务被抢占导致抖动
  • limits 太严,CPU 被频繁 throttling

基本策略

  1. 先测业务基线,再填 requests
  2. CPU limits 结合业务特性决定是否设置
  3. 内存 limits 必须有,否则容易把节点拖垮
resources:
  requests:
    cpu: "300m"
    memory: "512Mi"
  limits:
    cpu: "1000m"
    memory: "1Gi"

观测指标

建议持续看:

  • container_cpu_cfs_throttled_seconds_total
  • container_memory_working_set_bytes
  • Pod OOMKilled 次数

总结

资源参数不是一次性配置,而是持续调优过程。

用监控数据驱动参数调整,比凭经验拍数值更靠谱。


资源治理本质是容量治理,最终影响的是可用性和成本。