Go 中用 Feature Flag 做渐进发布的工程边界

为什么很多开关系统会失控 开关数量快速增长后,缺少生命周期治理会带来配置漂移、逻辑分叉和排障复杂度飙升。 最小治理闭环 开关创建必须声明 owner、过期时间、回收计划。 发布按人群或流量百分比分层推进。 异常自动回滚并冻结继续放量。 关键实践 只把“发布风险控制”逻辑放进开关。 长期策略配置应沉淀到正式配置中心。 对每个开关暴露命中率与收益指标。 小结 Feature Flag 是发布系统的一部分。没有生命周期和观测约束的开关,最终会成为技术债倍增器。

2026年5月25日 · 1 分钟 · BvBeJ

C++ 异步日志系统:高吞吐与不丢日志能否兼得

设计矛盾 异步日志通常在“吞吐、时延、可靠性”三角中权衡。默认无界队列最终会把内存打爆。 可靠性分级 关键审计日志:优先落盘成功,必要时阻塞。 普通诊断日志:可采样、可丢弃。 调试日志:高峰自动降级。 队列策略 多生产者单消费者 ring buffer。 明确 drop_oldest 或 drop_newest 语义。 将丢弃计数作为高优先级告警指标。 小结 先把日志等级与丢弃策略制度化,再谈性能优化。没有策略约束的异步日志,最后会反噬业务稳定性。

2026年5月17日 · 1 分钟 · BvBeJ

Go 服务零停机数据库 Schema 迁移实战

问题画像 线上最危险的不是“改表”,而是“业务和改表耦合发布”:应用已读新字段,但 DDL 还没完成;或者 DDL 成功了,回滚却读不懂新结构。 迁移模型:Expand -> Migrate -> Contract Expand:只做向后兼容变更(加列、加索引、双写入口)。 Migrate:后台回填与数据校验,逐步把读流量切向新字段。 Contract:确认没有旧路径后,再删旧列/旧索引。 Go 侧发布顺序 // 第一步发布:双写 + 旧读优先 func SaveOrder(ctx context.Context, o Order) error { row := model.OrderRow{ ID: o.ID, // old_total 保持兼容 OldTotal: o.Total, // new_total 为新字段 NewTotal: decimalPtr(o.Total), } return repo.Upsert(ctx, row) } // 第二步发布:读新字段,失败回退旧字段 func LoadOrderTotal(r model.OrderRow) decimal.Decimal { if r.NewTotal != nil { return *r.NewTotal } return r.OldTotal } 回填策略 按主键区间分页,避免大事务长时间占锁。 每批记录校验 checksum,把异常写入死信表。 回填作业限速,和在线业务共享数据库 QPS 预算。 观测与止损 指标:回填进度、回填错误率、慢 SQL、锁等待时间。 开关:双写开关、读路径开关、回填暂停开关。 预案:任意阶段都能回到“旧读+旧写”。 常见坑 在 Expand 阶段做非兼容 DDL(例如直接改列类型)。 回填任务不幂等,重跑会污染数据。 只关注“DDL 成功”,忽略“业务一致性成功”。 小结 零停机迁移不是一条 SQL,而是一条发布流水线。把数据库变更当成可灰度、可观测、可回滚的工程流程,风险会从“不可控事故”变成“可管理演进”。

2026年4月27日 · 1 分钟 · BvBeJ

TypeScript 运行时校验:为什么我用 Zod 兜底

编译期类型不是防弹衣 TypeScript 很强,但它无法保证运行时数据一定符合类型。只要数据来自网络、表单、消息队列,就需要校验。 一个常见坑 type User = { id: string; age: number } function handleUser(u: User) { return u.age + 1 } 如果后端把 age 传成字符串,编译不会报错,运行才炸。 用 Zod 建立输入防线 import { z } from "zod" const UserSchema = z.object({ id: z.string().min(1), age: z.number().int().nonnegative(), }) type User = z.infer<typeof UserSchema> function parseUser(input: unknown): User { return UserSchema.parse(input) } 好处是: 校验规则集中管理 报错信息可读 类型与校验规则同步 在 API 层统一拦截 建议在 BFF 或网关层就完成 parse,业务层只接收已验证的数据。这样能显著减少线上脏数据导致的连锁异常。 小结 TS 负责编译期,Zod 负责运行时。两者结合,才能让类型安全真正落地。

2026年4月22日 · 1 分钟 · BvBeJ

Go Context 取消链路:别让 goroutine 泄漏

为什么这个问题总会出现 线上服务一旦有重试、聚合查询、异步回调,就很容易出现 goroutine 泄漏: 上游请求已经结束,下游协程还在跑 超时只控制了入口,没有传到内部依赖 背景任务没有退出信号 context.Context 不是万能药,但它是 Go 服务里最基础的生命周期约束。 三条硬规则 请求入口创建 context,内部只传递不重建 外部依赖调用必须接收 context 子协程要么监听 ctx.Done(),要么有明确退出条件 一个最小可用结构 func handler(w http.ResponseWriter, r *http.Request) { ctx, cancel := context.WithTimeout(r.Context(), 800*time.Millisecond) defer cancel() user, err := userSvc.Get(ctx, "u-1001") if err != nil { http.Error(w, err.Error(), http.StatusGatewayTimeout) return } _ = json.NewEncoder(w).Encode(user) } 关键点在于:超时预算从入口建立,并传给每一层。 扇出场景的取消联动 func aggregate(ctx context.Context, id string) (Profile, error) { g, ctx := errgroup.WithContext(ctx) var base BaseInfo var score CreditScore g.Go(func() error { v, err := queryBase(ctx, id) if err != nil { return err } base = v return nil }) g.Go(func() error { v, err := queryScore(ctx, id) if err != nil { return err } score = v return nil }) if err := g.Wait(); err != nil { return Profile{}, err } return Profile{Base: base, Score: score}, nil } errgroup.WithContext 的价值是:任一分支失败,其他分支自动收到取消信号。 ...

2026年4月19日 · 1 分钟 · BvBeJ