eBPF 持续 Profiling 在生产环境的落地边界
为什么要持续 Profiling 离线抓火焰图只能解释“当下问题”,无法覆盖版本演进中的渐进回归。持续 profiling 能提供趋势视角。 落地关键 采样频率按服务等级分层,避免全局高频。 只保留聚合后的符号栈,降低存储压力。 结合版本号维度做回归对比。 噪声治理 排除短命批处理进程。 对 JIT 语言补齐符号映射。 过滤启动期冷缓存阶段样本。 常见风险 盲目提高采样率导致 CPU 额外开销。 内核版本不一致引发采样偏差。 只看 Top 函数,忽视调用链变化。 小结 持续 profiling 不是“多收集”,而是“低扰动、可对比、可解释”的长期性能体检体系。