Prometheus

背景很多团队的监控体系，起点都差不多：接了 Prometheus 做了几个 Grafana 大盘报警规则也写了一堆结果线上一出问题，还是有两个老问题：真故障没及时报不重要的抖动疯狂报本质原因通常不是“监控没接”，而是指标设计和告警语义不对。尤其在 Go 微服务里，写 metrics 很容易，写出真正有业务意义的 metrics 并不容易。先区分：监控数据不等于告警指标你当然可以采很多数据，但不是所有数据都适合直接拿来告警。比如这些指标： goroutine 数量 GC 次数进程 RSS 请求总量它们都很有价值，但更适合作为排障上下文，而不是一上来就触发 Pager。真正适合做核心告警的，通常是离用户体验更近的信号。这就是 SLI / SLO 的意义。什么是 SLI / SLO 简单说： SLI：你用什么指标衡量服务质量 SLO：这个质量要达到什么目标以一个 HTTP API 为例，最常见的两个 SLI 是：可用性成功请求比例是不是足够高。延迟请求耗时是不是在可接受范围内。例如： 30 天内成功率不低于 99.9% 95% 的请求延迟低于 200ms 这两个目标就比“CPU 超过 80% 告警”更接近真实业务体验。 Go 服务里的基础指标假设你已经有一个标准 HTTP 中间件，可以记录请求总量和耗时。 ...