可观测性 | BvBeJ的小站

Docker Compose 可观测性套件：本地联调模板

背景这类问题在真实项目里很常见：高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚，系统才会在压力下保持稳定。实践要点先定义目标：可用性、延迟、成本哪个优先。把关键路径显式化：超时、重试、降级、回滚。把策略写进代码和流程，而不是只停留在文档。代码片段 FROM alpine:3.20 WORKDIR /app COPY . . 总结工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环，才能在生产环境里真正稳定运行。稳定性不是某个技巧，而是持续的系统化约束。

Go HTTP/3 网关可观测性：QUIC 指标该怎么看

为什么旧仪表盘失效在 QUIC 下，没有传统 TCP 的重传与拥塞观测维度，若只看请求成功率，会漏掉大量连接质量问题。建议新增指标握手成功率与握手时延。连接迁移次数。 stream 重置率与流级阻塞时长。路径变化后的恢复时延。运营策略 HTTP/2 与 HTTP/3 双栈灰度。按 ASN/地区观察收益差异。对弱网用户优先启用 0-RTT 但限制敏感请求。小结 HTTP/3 上线不是协议开关切换，而是观测体系升级。看得见，才能调得稳。

Go GC 延迟预算化：把“偶发抖动”变成可管理指标

从症状到指标当你只看吞吐时，GC 可能“看起来没问题”；一旦看 p99，就会发现 stop-the-world 和 assist 在放大尾延迟。预算化方法先定义延迟预算：例如 p99 < 80ms。反推可接受 GC 时间占比。约束对象分配速率和堆增长上限。调优抓手降低瞬时分配：对象复用、批量编码。控制堆目标：结合 GOMEMLIMIT 与容器 limit。拆分热点路径：让大对象远离高频请求路径。必看图表 GC pause 分位数。 alloc rate 与 mutator utilization。 heap goal 与实际 heap 的偏差。小结 GC 调优不是“追求最少回收”，而是“在业务延迟预算内稳定运行”。预算先行，参数才有方向。

Rust tracing 字段设计：日志可检索性的关键

背景这类问题在真实项目里很常见：高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚，系统才会在压力下保持稳定。实践要点先定义目标：可用性、延迟、成本哪个优先。把关键路径显式化：超时、重试、降级、回滚。把策略写进代码和流程，而不是只停留在文档。代码片段 let result = tokio::time::timeout( std::time::Duration::from_millis(200), do_work(), ).await; 总结工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环，才能在生产环境里真正稳定运行。稳定性不是某个技巧，而是持续的系统化约束。

eBPF 持续 Profiling 在生产环境的落地边界

为什么要持续 Profiling 离线抓火焰图只能解释“当下问题”，无法覆盖版本演进中的渐进回归。持续 profiling 能提供趋势视角。落地关键采样频率按服务等级分层，避免全局高频。只保留聚合后的符号栈，降低存储压力。结合版本号维度做回归对比。噪声治理排除短命批处理进程。对 JIT 语言补齐符号映射。过滤启动期冷缓存阶段样本。常见风险盲目提高采样率导致 CPU 额外开销。内核版本不一致引发采样偏差。只看 Top 函数，忽视调用链变化。小结持续 profiling 不是“多收集”，而是“低扰动、可对比、可解释”的长期性能体检体系。

Vue3 前端可观测性：Web Vitals 与 RUM 采集

背景前端性能优化如果只看本地 Lighthouse，经常和真实线上体验有偏差。最小落地采集 LCP/INP/CLS 上报到日志或指标平台按页面和地区分桶观察 import { onLCP, onCLS, onINP } from 'web-vitals' onLCP(metric => report(metric)) onCLS(metric => report(metric)) onINP(metric => report(metric)) 总结性能优化要闭环：采集真实数据 -> 定位问题 -> 验证回归。没有真实用户数据，优化很容易变成自我感动。

OpenTelemetry 指标治理：控制基数比盲目埋点更重要

指标系统最怕什么很多团队一开始埋点很积极，过一阵就发现存储暴涨、查询变慢。高基数标签通常是罪魁祸首。典型高危标签： user_id request_id 完整 URL 路径动态错误信息设计原则指标看聚合趋势，不看单请求细节单请求细节放到 trace 或日志标签值集合必须可控一个可行做法 http.route 用模板路由，如 /users/:id 错误类型归类为固定枚举把业务自定义标签做白名单审核工程措施在 SDK 层做标签拦截给 metric pipeline 增加 cardinality 预算告警定期扫描 top N label pairs 小结可观测性不是“埋得越多越好”。指标、日志、追踪各司其职，系统才能长期稳定运行。

Rust 错误分层：把排障信息留在正确位置

背景 Rust 的 Result 很强，但很多项目还是会遇到同一个问题：错误被一路 ? 传上去日志里只有一个模糊报错出问题时不知道是哪个环节失败这通常是错误分层没有做好。一条实用原则库层定义结构化错误类型应用层补充上下文并统一输出 use thiserror::Error; #[derive(Debug, Error)] pub enum RepoError { #[error("record not found")] NotFound, #[error("db error: {0}")] Database(String), } use anyhow::{Context, Result}; pub async fn get_user_handler(id: i64, svc: &UserService) -> Result<UserDto> { let user = svc .find_user(id) .await .with_context(|| format!("get user failed, id={id}"))?; Ok(UserDto::from(user)) } 日志里要带可关联字段只打印错误文本通常不够，至少带上：请求 ID 用户或租户标识关键资源 ID tracing::error!( request_id = %request_id, user_id = user_id, error = %err, "failed to get user" ); 总结 Rust 错误处理做得好，排障效率会明显提升。 ...

Go 服务监控进阶：从指标采集到 SLI / SLO 告警

背景很多团队的监控体系，起点都差不多：接了 Prometheus 做了几个 Grafana 大盘报警规则也写了一堆结果线上一出问题，还是有两个老问题：真故障没及时报不重要的抖动疯狂报本质原因通常不是“监控没接”，而是指标设计和告警语义不对。尤其在 Go 微服务里，写 metrics 很容易，写出真正有业务意义的 metrics 并不容易。先区分：监控数据不等于告警指标你当然可以采很多数据，但不是所有数据都适合直接拿来告警。比如这些指标： goroutine 数量 GC 次数进程 RSS 请求总量它们都很有价值，但更适合作为排障上下文，而不是一上来就触发 Pager。真正适合做核心告警的，通常是离用户体验更近的信号。这就是 SLI / SLO 的意义。什么是 SLI / SLO 简单说： SLI：你用什么指标衡量服务质量 SLO：这个质量要达到什么目标以一个 HTTP API 为例，最常见的两个 SLI 是：可用性成功请求比例是不是足够高。延迟请求耗时是不是在可接受范围内。例如： 30 天内成功率不低于 99.9% 95% 的请求延迟低于 200ms 这两个目标就比“CPU 超过 80% 告警”更接近真实业务体验。 Go 服务里的基础指标假设你已经有一个标准 HTTP 中间件，可以记录请求总量和耗时。 ...

从零理解分布式追踪：OpenTelemetry 实战

问题是：微服务出问题了怎么办假设你负责一个电商系统，用户下单失败，你知道问题在哪吗？用户 → API Gateway → Order Service → Inventory Service → Database ↓ Payment Service → 第三方支付可能出问题的点太多了：网络超时、数据库慢查询、第三方接口挂了、代码 bug… 如果没有任何追踪手段，你只能靠经验和日志去猜。分布式追踪就是来解决这个问题的。核心概念：三根柱子可观测性有三根支柱：Traces（追踪）、Metrics（指标）、Logs（日志）。这里重点聊 Traces。 Trace：一次请求的完整路径一个 Trace 由多个 Span 组成，每个 Span 代表一个操作： Trace: 用户下单流程 ├── Span: 接收 HTTP 请求 │ ├── Span: 查询库存 (Inventory Service) │ │ ├── Span: SELECT * FROM inventory WHERE sku = ? │ ├── Span: 创建订单 (Order Service) │ │ ├── Span: INSERT INTO orders ... │ ├── Span: 调用支付 (Payment Service) │ │ └── Span: POST /api/pay 每个 Span 记录： ...