Posts

Go 服务监控进阶：从指标采集到 SLI / SLO 告警

背景很多团队的监控体系，起点都差不多：接了 Prometheus 做了几个 Grafana 大盘报警规则也写了一堆结果线上一出问题，还是有两个老问题：真故障没及时报不重要的抖动疯狂报本质原因通常不是“监控没接”，而是指标设计和告警语义不对。尤其在 Go 微服务里，写 metrics 很容易，写出真正有业务意义的 metrics 并不容易。先区分：监控数据不等于告警指标你当然可以采很多数据，但不是所有数据都适合直接拿来告警。比如这些指标： goroutine 数量 GC 次数进程 RSS 请求总量它们都很有价值，但更适合作为排障上下文，而不是一上来就触发 Pager。真正适合做核心告警的，通常是离用户体验更近的信号。这就是 SLI / SLO 的意义。什么是 SLI / SLO 简单说： SLI：你用什么指标衡量服务质量 SLO：这个质量要达到什么目标以一个 HTTP API 为例，最常见的两个 SLI 是：可用性成功请求比例是不是足够高。延迟请求耗时是不是在可接受范围内。例如： 30 天内成功率不低于 99.9% 95% 的请求延迟低于 200ms 这两个目标就比“CPU 超过 80% 告警”更接近真实业务体验。 Go 服务里的基础指标假设你已经有一个标准 HTTP 中间件，可以记录请求总量和耗时。 ...

Kubernetes 零中断发布：不仅是 RollingUpdate 那么简单

背景很多团队第一次把服务上到 Kubernetes 时，会觉得滚动发布已经帮我们解决了“不中断发布”的问题。实际上，RollingUpdate 只是开始，不是答案。线上真正导致发布抖动的，往往是这些细节：新 Pod 还没准备好就被加进流量老 Pod 收到 SIGTERM 后立刻退出长连接请求被中途切断 readiness 和 liveness 配置混乱 ingress、service、应用本身三层状态不同步想做到真正意义上的零中断，得把整条链路串起来看。先理解滚动发布到底做了什么 Deployment 默认使用 RollingUpdate 策略，大致过程是：拉起新 Pod 等新 Pod Ready 逐步减少旧 Pod 直到新版本全部替换完成一个常见配置如下： strategy: type: RollingUpdate rollingUpdate: maxUnavailable: 0 maxSurge: 1 这表示：发布期间不允许可用实例减少每次最多多起一个新 Pod 它能降低抖动概率，但不能保证应用层面的请求一定不受影响。 Readiness Probe 决定流量什么时候进来如果只配了 liveness，没有配 readiness，基本等于告诉集群： “只要进程还活着，就可以接流量。” 这在很多服务里是错的。比如一个 API 服务启动后还要做这些事情：加载配置预热缓存建立数据库连接池初始化路由和依赖客户端在这些动作完成之前，进程虽然活着，但根本不适合接请求。 readinessProbe: httpGet: path: /ready port: 8080 initialDelaySeconds: 3 periodSeconds: 5 timeoutSeconds: 1 failureThreshold: 3 livenessProbe: httpGet: path: /health port: 8080 initialDelaySeconds: 10 periodSeconds: 10 这两个探针不要混用： ...

Rust Tokio 背压控制：异步系统别只会拼命 spawn

背景刚开始写 Tokio 程序时，很多人都会觉得异步特别轻：一个请求一个 task 来一个任务就 tokio::spawn channel 一接就处理代码看起来很流畅，吞吐也不错。但一到高负载场景，问题很快就出来了：任务堆积越来越多内存不断上涨下游数据库或 HTTP 依赖被打爆延迟从毫秒飙到秒级这时候根问题通常不是 Tokio 不够快，而是系统没有背压。什么是背压背压的本质是：当下游处理不过来时，上游必须感知并减速。如果没有这层机制，异步系统就很容易变成“把问题排队排到内存里”。一个最典型的错误写法： loop { let job = accept_job().await; tokio::spawn(async move { process_job(job).await; }); } 这段代码的意思其实是：来多少任务都收能不能处理完以后再说如果生产速度持续高于消费速度，系统一定会失控。最简单的背压：有界 channel 相比无脑 spawn，更稳妥的起点通常是 bounded channel。 use tokio::sync::mpsc; #[tokio::main] async fn main() { let (tx, mut rx) = mpsc::channel::<Job>(1024); tokio::spawn(async move { while let Some(job) = rx.recv().await { process_job(job).await; } }); loop { let job = accept_job().await; if tx.send(job).await.is_err() { break; } } } struct Job; async fn accept_job() -> Job { Job } async fn process_job(_job: Job) {} mpsc::channel(1024) 的关键不是“1024 这个数字”，而是它有上限。 ...

Rust 异步数据库访问：连接池、超时与稳定性

背景 Rust 写后端服务时，数据库访问通常是绕不开的一层。很多人刚开始用 sqlx 或 tokio-postgres 时，会把关注点放在：能不能异步查询类型映射是否方便宏检查 SQL 是否好用这些当然重要，但线上跑起来以后，更现实的问题通常是：连接池应该开多大请求等连接要等多久数据库抖动时怎么避免把整个服务拖死这些问题不处理好，异步只能让你“更高效地把数据库打爆”。先建立一个基本事实异步不是无限并发。你的 Tokio 任务可以很多，但数据库连接永远是稀缺资源。无论是 PostgreSQL、MySQL 还是其他关系型数据库，都不可能让应用无限开连接而没有代价。所以数据库访问的第一原则不是“尽快发查询”，而是：连接数可控排队时间可控查询超时可控以 sqlx 为例初始化连接池 use sqlx::postgres::PgPoolOptions; use std::time::Duration; async fn create_pool(database_url: &str) -> Result<sqlx::PgPool, sqlx::Error> { PgPoolOptions::new() .max_connections(32) .min_connections(4) .acquire_timeout(Duration::from_secs(2)) .idle_timeout(Duration::from_secs(300)) .max_lifetime(Duration::from_secs(1800)) .connect(database_url) .await } 这几个参数都很关键： max_connections：连接池上限 min_connections：最小保活连接数 acquire_timeout：拿连接最多等多久 max_lifetime：连接多久轮换一次尤其是 acquire_timeout，它能防止高峰时请求无止境排队。连接池大小不是越大越好很多人看到连接池耗尽，就第一时间把池子调大。这有时能缓一口气，但经常只是把压力继续往数据库推。连接池大小应该结合几个因素来定： ...

Vue3 性能优化：从响应式细节到页面加载

背景前端性能这件事，经常有两个极端：一种是完全不管，页面卡了再说另一种是上来就讲虚拟列表、SSR、代码分割，结果项目里真正拖慢页面的点根本不在那 Vue3 本身已经做了不少优化，但框架快，不代表业务代码就一定快。真正影响体验的，通常还是这些问题：不必要的响应式开销大列表重复渲染首屏加载资源过大 watch 写得太随意，副作用失控这篇文章只聊实战里最常见、最值回票价的优化点。先判断瓶颈在哪优化前先确认问题类型。通常分三类：首屏慢 JS 包太大、资源太多、接口太慢。交互卡某个状态变更引起大面积重渲染。长列表卡 DOM 数量过多，滚动和 patch 开销都很高。这三类问题的解决手段完全不同。不要把“页面卡”都归因到 Vue 响应式。不要把所有东西都塞进 reactive 很多项目里常见这种写法： const state = reactive({ tableData: [], chartInstance: null, editor: null, wsConnection: null, filters: { keyword: '', status: 'all', }, }) 看起来统一，实际上问题不少。像图表实例、编辑器对象、WebSocket 连接这种第三方对象，本来就不是拿来做细粒度响应式追踪的。把它们塞进深层响应式对象里，只会增加代理成本，还可能带来奇怪副作用。更合理的拆法是： import { reactive, shallowRef, markRaw } from 'vue' const filters = reactive({ keyword: '', status: 'all', }) const tableData = shallowRef<User[]>([]) const chartInstance = shallowRef<any>(null) const editor = shallowRef<any>(null) function initChart(el: HTMLDivElement) { chartInstance.value = markRaw(createChart(el)) } 这里的思路很明确：业务表单状态，用 reactive 大数组、外部实例，用 shallowRef 不希望被代理的对象，用 markRaw 这不是“写法偏好”，而是直接影响更新成本。 ...

Docker 多阶段构建：让你的镜像小而美

从一个真实案例说起之前帮一个项目 Dockerize，初始镜像 800MB，每次部署慢得让人怀疑人生。后来用多阶段构建优化完，8MB，部署时间从 3 分钟变成 10 秒。这篇文章讲讲多阶段构建的原理和实战技巧。为什么镜像那么大看个典型 Dockerfile： FROM golang:1.22 WORKDIR /app COPY . . RUN go mod download RUN go build -o myapp . ENTRYPOINT ["./myapp"] 问题在哪？ golang:1.22 镜像本身就 800MB+，因为包含了完整的编译工具链你的源代码、依赖缓存、编译中间产物全在里面运行一个简单程序，凭什么需要 gcc、git、make ？多阶段构建：原理很简单 Dockerfile 可以有多个 FROM 指令，每个阶段是独立的。前面的阶段可以复制文件到后面，最终镜像只包含最后一个阶段的内容。 # 第一阶段：构建 FROM golang:1.22 AS builder WORKDIR /app COPY . . RUN go mod download RUN CGO_ENABLED=0 GOOS=linux go build -ldflags="-w -s" -o myapp . # 第二阶段：运行 FROM alpine:3.19 RUN addgroup -S appgroup && adduser -S appuser -G appgroup WORKDIR /app COPY --from=builder /app/myapp . USER appuser ENTRYPOINT ["./myapp"] 关键点： ...

Rust Tokio 优雅停机：让服务真正可控

为什么要关心停机很多人写异步服务时，把注意力都放在“怎么启动”，很少认真想“怎么结束”。但线上真正麻烦的，往往是停机阶段： Kubernetes 滚动发布，Pod 收到 SIGTERM 服务还在处理请求，但新流量已经切走后台任务没停干净，日志和指标都丢了数据库连接突然断掉，导致半成功半失败如果退出流程没有设计好，服务看起来可用，实际上很难运维。 Tokio 默认不会帮你解决一切 Tokio 的运行时很好用，但它不会自动替你处理这些问题：谁来监听退出信号如何通知所有任务停止正在跑的任务是立即取消，还是等它收尾超时之后要不要强制退出这些都需要业务自己定义。一个基础模型一个比较稳妥的思路是分三步：接收退出信号广播 shutdown 事件等待任务收尾，必要时超时强退先看一个简化版结构： use tokio::signal; use tokio::sync::broadcast; use tokio::time::{timeout, Duration}; #[tokio::main] async fn main() -> anyhow::Result<()> { let (shutdown_tx, _) = broadcast::channel::<()>(16); let server_handle = tokio::spawn(run_http_server(shutdown_tx.subscribe())); let worker_handle = tokio::spawn(run_background_worker(shutdown_tx.subscribe())); signal::ctrl_c().await?; println!("received shutdown signal"); let _ = shutdown_tx.send(()); let _ = timeout(Duration::from_secs(10), async { let _ = server_handle.await; let _ = worker_handle.await; }).await; Ok(()) } 这段代码表达的核心思想很重要： ...

从零理解分布式追踪：OpenTelemetry 实战

问题是：微服务出问题了怎么办假设你负责一个电商系统，用户下单失败，你知道问题在哪吗？用户 → API Gateway → Order Service → Inventory Service → Database ↓ Payment Service → 第三方支付可能出问题的点太多了：网络超时、数据库慢查询、第三方接口挂了、代码 bug… 如果没有任何追踪手段，你只能靠经验和日志去猜。分布式追踪就是来解决这个问题的。核心概念：三根柱子可观测性有三根支柱：Traces（追踪）、Metrics（指标）、Logs（日志）。这里重点聊 Traces。 Trace：一次请求的完整路径一个 Trace 由多个 Span 组成，每个 Span 代表一个操作： Trace: 用户下单流程 ├── Span: 接收 HTTP 请求 │ ├── Span: 查询库存 (Inventory Service) │ │ ├── Span: SELECT * FROM inventory WHERE sku = ? │ ├── Span: 创建订单 (Order Service) │ │ ├── Span: INSERT INTO orders ... │ ├── Span: 调用支付 (Payment Service) │ │ └── Span: POST /api/pay 每个 Span 记录： ...

写给 C++ 程序员的 Rust 入门指南

为什么要学 Rust C++ 写多了，总会遇到这些问题：悬空指针、野指针内存泄漏数据竞争（data race）未定义行为（UB） Rust 从语言层面就帮你杜绝了这些。它的所有权系统（Ownership）是核心——编译期检查，零运行时开销。本文用 C++ 对比着讲 Rust，帮你快速上手。基础类型：差不多 // C++ int x = 42; double pi = 3.14; bool flag = true; char c = 'A'; auto* ptr = new int(42); // Rust let x: i32 = 42; let pi: f64 = 3.14; let flag: bool = true; let c: char = 'A'; let mut ptr = Box::new(42); // 堆分配，Box 就是智能指针关键区别： Rust 变量默认不可变，let mut x 才是可变的 i32、f64、bool 这些名字和 C++ 相似没有裸指针，但有 *const T 和 *mut T（安全受限）所有权：核心概念这是 Rust 和 C++ 最核心的区别。 C++ 的问题 int* create_buffer() { int* buffer = new int[100]; // ... 处理 ... return buffer; // 谁负责释放？ } void process() { int* data = create_buffer(); // 用完了 delete[] data; // 忘了 delete 就内存泄漏 } Rust 的解决方案：所有权转移 fn create_buffer() -> Vec<i32> { let buffer = vec![0; 100]; // Vec 是堆数组，类似 std::vector buffer // 所有权转移给调用方，函数结束后 buffer 不被 drop } fn process() { let data = create_buffer(); // 用完了，data 离开作用域，自动释放（drop） } // data 在这里被 drop，无需手动管理 Rust 三条规则： ...

Go 服务限流：用令牌桶保护你的 API

背景服务刚上线时，大家最担心的是没流量。等真有流量了，新的问题马上出现：某个接口被脚本打爆下游数据库扛不住瞬时峰值重试风暴把正常请求一起拖死这时候如果没有限流，服务再快也会被拖垮。 Go 很适合写高并发服务，限流逻辑做成中间件也很自然。今天聊一个最常见、也最实用的方案：令牌桶。为什么是令牌桶令牌桶的规则很简单：系统按固定速率往桶里放令牌请求到来时先拿一个令牌拿到就放行，拿不到就拒绝或排队它的好处是同时兼顾两件事：控制平均速率允许短时间突发比如接口平时稳定在每秒 100 个请求，但偶尔瞬间冲到 150，只要桶里有积累的令牌，就不一定要马上拒绝。单机场景：HTTP 中间件 Go 官方扩展库里已经有现成实现：golang.org/x/time/rate。 package main import ( "net/http" "time" "golang.org/x/time/rate" ) func RateLimitMiddleware(limiter *rate.Limiter, next http.Handler) http.Handler { return http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) { if !limiter.Allow() { w.WriteHeader(http.StatusTooManyRequests) _, _ = w.Write([]byte("rate limit exceeded")) return } next.ServeHTTP(w, r) }) } func main() { mux := http.NewServeMux() mux.HandleFunc("/api/users", func(w http.ResponseWriter, r *http.Request) { _, _ = w.Write([]byte("ok")) }) limiter := rate.NewLimiter(rate.Every(10*time.Millisecond), 20) server := &http.Server{ Addr: ":8080", Handler: RateLimitMiddleware(limiter, mux), } _ = server.ListenAndServe() } 这段配置的含义： ...