工程实践 | BvBeJ的小站

Go 中用 Feature Flag 做渐进发布的工程边界

为什么很多开关系统会失控开关数量快速增长后，缺少生命周期治理会带来配置漂移、逻辑分叉和排障复杂度飙升。最小治理闭环开关创建必须声明 owner、过期时间、回收计划。发布按人群或流量百分比分层推进。异常自动回滚并冻结继续放量。关键实践只把“发布风险控制”逻辑放进开关。长期策略配置应沉淀到正式配置中心。对每个开关暴露命中率与收益指标。小结 Feature Flag 是发布系统的一部分。没有生命周期和观测约束的开关，最终会成为技术债倍增器。

C++ 异步日志系统：高吞吐与不丢日志能否兼得

设计矛盾异步日志通常在“吞吐、时延、可靠性”三角中权衡。默认无界队列最终会把内存打爆。可靠性分级关键审计日志：优先落盘成功，必要时阻塞。普通诊断日志：可采样、可丢弃。调试日志：高峰自动降级。队列策略多生产者单消费者 ring buffer。明确 drop_oldest 或 drop_newest 语义。将丢弃计数作为高优先级告警指标。小结先把日志等级与丢弃策略制度化，再谈性能优化。没有策略约束的异步日志，最后会反噬业务稳定性。

Go 服务零停机数据库 Schema 迁移实战

问题画像线上最危险的不是“改表”，而是“业务和改表耦合发布”：应用已读新字段，但 DDL 还没完成；或者 DDL 成功了，回滚却读不懂新结构。迁移模型：Expand -> Migrate -> Contract Expand：只做向后兼容变更（加列、加索引、双写入口）。 Migrate：后台回填与数据校验，逐步把读流量切向新字段。 Contract：确认没有旧路径后，再删旧列/旧索引。 Go 侧发布顺序 // 第一步发布：双写 + 旧读优先 func SaveOrder(ctx context.Context, o Order) error { row := model.OrderRow{ ID: o.ID, // old_total 保持兼容 OldTotal: o.Total, // new_total 为新字段 NewTotal: decimalPtr(o.Total), } return repo.Upsert(ctx, row) } // 第二步发布：读新字段，失败回退旧字段 func LoadOrderTotal(r model.OrderRow) decimal.Decimal { if r.NewTotal != nil { return *r.NewTotal } return r.OldTotal } 回填策略按主键区间分页，避免大事务长时间占锁。每批记录校验 checksum，把异常写入死信表。回填作业限速，和在线业务共享数据库 QPS 预算。观测与止损指标：回填进度、回填错误率、慢 SQL、锁等待时间。开关：双写开关、读路径开关、回填暂停开关。预案：任意阶段都能回到“旧读+旧写”。常见坑在 Expand 阶段做非兼容 DDL（例如直接改列类型）。回填任务不幂等，重跑会污染数据。只关注“DDL 成功”，忽略“业务一致性成功”。小结零停机迁移不是一条 SQL，而是一条发布流水线。把数据库变更当成可灰度、可观测、可回滚的工程流程，风险会从“不可控事故”变成“可管理演进”。

TypeScript 运行时校验：为什么我用 Zod 兜底

编译期类型不是防弹衣 TypeScript 很强，但它无法保证运行时数据一定符合类型。只要数据来自网络、表单、消息队列，就需要校验。一个常见坑 type User = { id: string; age: number } function handleUser(u: User) { return u.age + 1 } 如果后端把 age 传成字符串，编译不会报错，运行才炸。用 Zod 建立输入防线 import { z } from "zod" const UserSchema = z.object({ id: z.string().min(1), age: z.number().int().nonnegative(), }) type User = z.infer<typeof UserSchema> function parseUser(input: unknown): User { return UserSchema.parse(input) } 好处是：校验规则集中管理报错信息可读类型与校验规则同步在 API 层统一拦截建议在 BFF 或网关层就完成 parse，业务层只接收已验证的数据。这样能显著减少线上脏数据导致的连锁异常。小结 TS 负责编译期，Zod 负责运行时。两者结合，才能让类型安全真正落地。

Go Context 取消链路：别让 goroutine 泄漏

为什么这个问题总会出现线上服务一旦有重试、聚合查询、异步回调，就很容易出现 goroutine 泄漏：上游请求已经结束，下游协程还在跑超时只控制了入口，没有传到内部依赖背景任务没有退出信号 context.Context 不是万能药，但它是 Go 服务里最基础的生命周期约束。三条硬规则请求入口创建 context，内部只传递不重建外部依赖调用必须接收 context 子协程要么监听 ctx.Done()，要么有明确退出条件一个最小可用结构 func handler(w http.ResponseWriter, r *http.Request) { ctx, cancel := context.WithTimeout(r.Context(), 800*time.Millisecond) defer cancel() user, err := userSvc.Get(ctx, "u-1001") if err != nil { http.Error(w, err.Error(), http.StatusGatewayTimeout) return } _ = json.NewEncoder(w).Encode(user) } 关键点在于：超时预算从入口建立，并传给每一层。扇出场景的取消联动 func aggregate(ctx context.Context, id string) (Profile, error) { g, ctx := errgroup.WithContext(ctx) var base BaseInfo var score CreditScore g.Go(func() error { v, err := queryBase(ctx, id) if err != nil { return err } base = v return nil }) g.Go(func() error { v, err := queryScore(ctx, id) if err != nil { return err } score = v return nil }) if err := g.Wait(); err != nil { return Profile{}, err } return Profile{Base: base, Score: score}, nil } errgroup.WithContext 的价值是：任一分支失败，其他分支自动收到取消信号。 ...