专注系统底层与高性能服务开发,持续记录 Go / Rust / C++ / 云原生的一线实践。
从源码细节到线上治理,尽量少空话,多代码。
专注系统底层与高性能服务开发,持续记录 Go / Rust / C++ / 云原生的一线实践。
从源码细节到线上治理,尽量少空话,多代码。
现象 某个 key QPS 极高,单分片 CPU 打满。 网络带宽与复制延迟在高峰突增。 迁移 slot 时业务抖动明显。 治理步骤 识别热点:按 key 维度打 sampling 访问日志。 评估可分片性:是否支持合并读、是否有排序依赖。 设计散列方案:hotkey:{uid}:N。 Go 读写示例 func shardKey(base string, uid int64, shards int) string { return fmt.Sprintf("%s:%d", base, uid%int64(shards)) } 写:按 shard 分散。 读:并发读取后聚合,必要时加本地短缓存。 额外策略 热点结果做二级缓存(进程内 + Redis)。 高峰期提前预热,避免瞬时击穿。 为热点接口配置独立限流与熔断。 小结 热点 key 的本质是负载不均。先把流量摊平,再谈更复杂的缓存一致性优化。
背景 这类问题在真实项目里很常见:高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚,系统才会在压力下保持稳定。 实践要点 先定义目标:可用性、延迟、成本哪个优先。 把关键路径显式化:超时、重试、降级、回滚。 把策略写进代码和流程,而不是只停留在文档。 代码片段 ctx, cancel := context.WithTimeout(ctx, 200*time.Millisecond) defer cancel() err := client.Call(ctx) if err != nil { return err } 总结 工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环,才能在生产环境里真正稳定运行。 稳定性不是某个技巧,而是持续的系统化约束。
背景 这类问题在真实项目里很常见:高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚,系统才会在压力下保持稳定。 实践要点 先定义目标:可用性、延迟、成本哪个优先。 把关键路径显式化:超时、重试、降级、回滚。 把策略写进代码和流程,而不是只停留在文档。 代码片段 let result = tokio::time::timeout( std::time::Duration::from_millis(200), do_work(), ).await; 总结 工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环,才能在生产环境里真正稳定运行。 稳定性不是某个技巧,而是持续的系统化约束。
背景 很多服务希望不重启就能改配置,但并不是所有参数都适合热更新。 建议分类 可热更新:限流阈值、开关、采样率 谨慎热更新:连接池参数 不建议热更新:协议兼容、核心依赖地址 type RuntimeConfig struct { RateLimit int Sample float64 } var cfg atomic.Value 总结 热更新是能力,不是目标。先定义边界,再提供机制。 线上灵活性要建立在可控性之上。
常见误解 启用 Kafka EOS 后,很多团队默认“不会重复消费”。实际上,数据库写入、HTTP 调用等外部副作用仍可能重复。 EOS 真正保证什么 Producer 端幂等写入(同一会话内去重)。 事务内“写输出 + 提交消费位点”原子性。 只在 Kafka 生态内部有效。 仍需业务补齐 下游写库使用幂等键(业务主键或事件 ID)。 外部调用提供去重令牌。 失败重试具备可重入语义。 处理流程建议 consume -> validate -> execute(idempotent) -> produce -> commit offsets 任何一步失败都可重试,且不会造成不可逆双写。 小结 EOS 不是银弹,而是基础设施层的“至少一次到一次”的收敛器。业务副作用一致性仍需你自己设计。
背景 高性能或底层场景里,Rust 项目经常需要少量 unsafe。问题不在于有没有 unsafe,而在于是否可审计。 审计清单 每个 unsafe block 有明确不变量说明 边界输入做前置校验 单测覆盖成功与失败路径 关键模块做 fuzz 或 Miri 检查 // SAFETY: ptr 来自有效切片起始地址,len 已做边界校验。 unsafe { std::ptr::copy_nonoverlapping(src.as_ptr(), dst.as_mut_ptr(), len); } 总结 unsafe 管理的核心是制度化约束,不是个人经验。 能解释安全前提的 unsafe,才是工程可接受的 unsafe。
症状识别 业务负载稳定,但 RSS 只涨不降。 堆分析看不到明显泄漏对象。 进程重启后内存瞬间回落。 为什么会碎片化 多线程下不同 size class 高频分配释放。 短命与长命对象混放。 大量临时 buffer 导致 arena 难回收。 治理路径 分离对象生命周期:短命池与长命池分开。 统一热点对象尺寸,减少跨 class 抖动。 评估 jemalloc/tcmalloc 与默认 allocator 差异。 线上指标建议 allocated_bytes active_bytes resident_bytes fragmentation_ratio = resident / active 风险点 只看进程总内存,不看分配器内部统计。 盲目手写内存池,忽略线程本地缓存竞争。 回收策略和 NUMA 绑定冲突。 小结 碎片治理是系统工程:对象模型、分配器、线程调度、NUMA 拓扑都要协同。先观测后改造,收益才稳定。
背景 Ingress 够简单,但在多团队协作、细粒度权限和高级路由策略上容易吃力。 迁移思路 先并行接入,不强切 从低风险路由开始迁移 明确 GatewayClass 与 Route 的职责边界 总结 迁移重点不在 YAML 语法,而在组织层面的边界和治理模型。 流量治理升级,技术和协作模型要一起升级。
背景 前端性能优化如果只看本地 Lighthouse,经常和真实线上体验有偏差。 最小落地 采集 LCP/INP/CLS 上报到日志或指标平台 按页面和地区分桶观察 import { onLCP, onCLS, onINP } from 'web-vitals' onLCP(metric => report(metric)) onCLS(metric => report(metric)) onINP(metric => report(metric)) 总结 性能优化要闭环:采集真实数据 -> 定位问题 -> 验证回归。 没有真实用户数据,优化很容易变成自我感动。
背景 C++ 协程常见 bug 之一是对象在挂起后已经销毁,但恢复时仍被访问。 典型风险 捕获局部引用并跨 suspend 使用 返回协程句柄后调用方提前释放上下文 Task<void> foo() { std::string buf = "hello"; co_await suspend_point(); use(buf); // 若生命周期判断错,这里会出问题 } 总结 协程代码要像异步状态机一样审生命周期,别按同步函数直觉来读。 控制流变了,生命周期审计方式也必须跟着变。