并发 | BvBeJ的小站

Rust Channel 背压模式：有界队列与拒绝策略

背景这类问题在真实项目里很常见：高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚，系统才会在压力下保持稳定。实践要点先定义目标：可用性、延迟、成本哪个优先。把关键路径显式化：超时、重试、降级、回滚。把策略写进代码和流程，而不是只停留在文档。代码片段 let result = tokio::time::timeout( std::time::Duration::from_millis(200), do_work(), ).await; 总结工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环，才能在生产环境里真正稳定运行。稳定性不是某个技巧，而是持续的系统化约束。

C++ 锁竞争分析：从火焰图到优化路径

背景这类问题在真实项目里很常见：高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚，系统才会在压力下保持稳定。实践要点先定义目标：可用性、延迟、成本哪个优先。把关键路径显式化：超时、重试、降级、回滚。把策略写进代码和流程，而不是只停留在文档。代码片段 auto start = std::chrono::steady_clock::now(); run_hot_path(); auto cost = std::chrono::steady_clock::now() - start; 总结工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环，才能在生产环境里真正稳定运行。稳定性不是某个技巧，而是持续的系统化约束。

C++ 原子变量与伪共享：低延迟场景避坑

背景这类问题在真实项目里很常见：高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚，系统才会在压力下保持稳定。实践要点先定义目标：可用性、延迟、成本哪个优先。把关键路径显式化：超时、重试、降级、回滚。把策略写进代码和流程，而不是只停留在文档。代码片段 auto start = std::chrono::steady_clock::now(); run_hot_path(); auto cost = std::chrono::steady_clock::now() - start; 总结工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环，才能在生产环境里真正稳定运行。稳定性不是某个技巧，而是持续的系统化约束。

C++ 线程池：Work Stealing 的收益与代价

背景这类问题在真实项目里很常见：高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚，系统才会在压力下保持稳定。实践要点先定义目标：可用性、延迟、成本哪个优先。把关键路径显式化：超时、重试、降级、回滚。把策略写进代码和流程，而不是只停留在文档。代码片段 auto start = std::chrono::steady_clock::now(); run_hot_path(); auto cost = std::chrono::steady_clock::now() - start; 总结工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环，才能在生产环境里真正稳定运行。稳定性不是某个技巧，而是持续的系统化约束。

Rust Async 的 Cancellation Safety：避免半提交状态

关键事实 Future 在 .await 点可能被取消。若状态更新分布在多个 await 之间，就可能出现“写了一半”的业务状态。设计原则把副作用集中在单一提交点。在可取消区间只做纯计算或幂等准备。对外部系统写入使用幂等键。反例与修正 // 反例：先扣库存再写订单，两个 await 中间可被取消 reserve_stock().await?; create_order().await?; // 修正：准备阶段无副作用，最后一次性提交 let plan = build_plan().await?; commit(plan).await?; 工程策略为关键流程增加“中断注入测试”。对每个 await 标注取消后的状态语义。引入补偿任务清理孤儿状态。小结异步取消是默认行为，不是异常路径。把 cancellation safety 当作接口契约的一部分，才能避免线上出现“偶发且不可复现”的脏状态。

Rust Tokio 取消安全：避免半完成状态

背景 Tokio 里 select! 和超时很常用，但取消发生在任意 await 点，任务可能停在中间状态。实践建议把副作用操作放在不可分割阶段写操作尽量幂等关键路径加补偿或重试机制 tokio::select! { _ = shutdown.recv() => { tracing::info!("cancelled"); } res = do_commit_work() => { res?; } } 总结取消安全本质是状态机设计，不是语法问题。异步代码能停下来不难，停得干净才难。

Rust 无锁结构中的内存回收：Epoch 与 Hazard Pointer 对比

先澄清核心矛盾无锁链表里，线程 A 可能刚把节点从链表摘下，线程 B 还在读取它。此时直接 drop 会造成悬垂引用。两类主流方案 Epoch Based Reclamation（EBR）线程进入临界区时 pin 当前 epoch。删除节点先放入 retired 列表。只有当所有线程都跨过该 epoch，节点才可释放。 Hazard Pointer（HP）读取前先声明“我正在看这个指针”。回收线程扫描所有 hazard slot。未被保护的 retired 节点才能释放。 EBR 的工程特性吞吐通常更高，读路径开销小。线程暂停会拖慢全局回收进度。更适合短临界区、线程活跃的服务。 HP 的工程特性回收更精细，不容易被慢线程拖住。读路径需要发布 hazard，CPU 开销更高。更适合线程生命周期不可控的系统。 Rust 落地建议 // 伪代码：删除节点不立即释放，而是 retire fn remove(node: Shared<Node>, guard: &Guard) { if cas_unlink(node, guard) { guard.defer_destroy(node); // 交给回收器延迟释放 } } 使用经过验证的库（如 crossbeam）而不是手搓回收器。把“最大 retired 数量”做成指标，防止隐性内存膨胀。压测时加入 SIGSTOP 慢线程场景，验证回收鲁棒性。小结锁不一定是瓶颈，错误回收一定是灾难。无锁结构上线前，先证明回收策略在“慢线程、抖动、长尾”下仍可控。

Go Worker Pool：饱和控制与降级策略

背景很多 Go 服务都会做 worker pool，但只做“固定 worker 数量”还不够。真正决定稳定性的，是池子打满后怎么办。基础模型 type Job func(context.Context) error type Pool struct { jobs chan Job } func NewPool(workerN, queueN int) *Pool { p := &Pool{jobs: make(chan Job, queueN)} for i := 0; i < workerN; i++ { go func() { for job := range p.jobs { _ = job(context.Background()) } }() } return p } 关键点：拒绝策略 func (p *Pool) TrySubmit(job Job) error { select { case p.jobs <- job: return nil default: return errors.New("worker pool saturated") } } 当队列已满时，快速失败通常比无限排队更可控。总结 worker pool 的目标不是“永不拒绝”，而是让系统在高峰时有可预测行为。配合监控和限流，才能构成完整保护链路。可用系统的关键是边界清晰，而不是无限扛压。

Go Worker Pool 与背压：不靠拍脑袋定并发数

为什么会积压很多服务写了 worker pool，但上线后仍然：高峰时队列暴涨平均延迟还行，P99 很差 CPU 没打满却开始超时这通常是“入队速率 > 出队速率”的背压问题。基础模型 type Job struct { ID string } func startPool(ctx context.Context, n int, jobs <-chan Job) { for i := 0; i < n; i++ { go func() { for { select { case <-ctx.Done(): return case job, ok := <-jobs: if !ok { return } handle(job) } } }() } } 结构不复杂，难点在参数选择。三个观测指标吞吐：每秒处理多少请求延迟：P50/P95/P99 队列深度：channel 长度趋势如果队列长期接近上限，说明处理能力不足或外部依赖抖动。调优顺序固定业务流量，先找单 worker 处理能力逐步增加 worker，观察 P99 与 CPU 变化达到拐点后停止扩容，避免锁竞争和上下文切换过量设置拒绝策略，不让队列无限增长一个实用策略快速失败：队列满时直接返回可重试错误分级队列：高优先级任务单独通道限时执行：每个任务绑定 context 超时总结 worker pool 不是“越大越好”。并发数本质是资源预算，必须和外部依赖能力、延迟目标一起设计。

Go Context 取消链路：别让 goroutine 泄漏

为什么这个问题总会出现线上服务一旦有重试、聚合查询、异步回调，就很容易出现 goroutine 泄漏：上游请求已经结束，下游协程还在跑超时只控制了入口，没有传到内部依赖背景任务没有退出信号 context.Context 不是万能药，但它是 Go 服务里最基础的生命周期约束。三条硬规则请求入口创建 context，内部只传递不重建外部依赖调用必须接收 context 子协程要么监听 ctx.Done()，要么有明确退出条件一个最小可用结构 func handler(w http.ResponseWriter, r *http.Request) { ctx, cancel := context.WithTimeout(r.Context(), 800*time.Millisecond) defer cancel() user, err := userSvc.Get(ctx, "u-1001") if err != nil { http.Error(w, err.Error(), http.StatusGatewayTimeout) return } _ = json.NewEncoder(w).Encode(user) } 关键点在于：超时预算从入口建立，并传给每一层。扇出场景的取消联动 func aggregate(ctx context.Context, id string) (Profile, error) { g, ctx := errgroup.WithContext(ctx) var base BaseInfo var score CreditScore g.Go(func() error { v, err := queryBase(ctx, id) if err != nil { return err } base = v return nil }) g.Go(func() error { v, err := queryScore(ctx, id) if err != nil { return err } score = v return nil }) if err := g.Wait(); err != nil { return Profile{}, err } return Profile{Base: base, Score: score}, nil } errgroup.WithContext 的价值是：任一分支失败，其他分支自动收到取消信号。 ...