GRPC

典型症状单连接吞吐很高，但进程 RSS 持续上涨。 p99 抖动明显，GC 时间占比异常。下游稍慢就触发级联超时。流控设计要点应用层窗口：限制每个 stream 的未确认消息数。连接层隔离：大流量 stream 与普通 RPC 分离连接。消费层背压：处理队列满时暂停读或降级。服务端模式 type StreamState struct { inflight int64 limit int64 } func (s *StreamState) AllowRecv() bool { return atomic.LoadInt64(&s.inflight) < s.limit } 参数调优建议 MaxRecvMsgSize 不要无限放大，优先拆包。对大对象优先走分块传输。结合业务 ACK 做“应用级信用”控制。观测面每 stream inflight 数。解码耗时与业务处理耗时拆分。内存分配热点（pprof alloc_space）。小结 Streaming 的本质是长期会话。想要稳，必须让发送速率服从消费能力，而不是盲目追求“尽快塞满管道”。

背景很多团队从 REST 切到 gRPC 后，第一感受通常都不错：接口定义清晰代码生成省心性能和序列化效率更好但线上跑久了会发现，真正决定服务质量的不是 protobuf 文件写得多漂亮，而是这些问题处理得怎么样：超时怎么设失败要不要重试下游抖动时怎么自保连接和并发要怎么控这些内容不处理好，gRPC 只是让调用更快地失败而已。超时必须从调用入口就带上 Go 里最好的习惯之一，就是把超时放进 context.Context。 func (s *OrderService) GetUser(ctx context.Context, userID string) (*pb.User, error) { callCtx, cancel := context.WithTimeout(ctx, 300*time.Millisecond) defer cancel() return s.userClient.GetUser(callCtx, &pb.GetUserRequest{ UserId: userID, }) } 为什么一定要带超时？因为不带超时的 RPC，本质上就是把失败时间交给网络、内核和对端服务决定。你无法控制，也无法稳定预期。线上更糟的是，请求可能层层调用： API -> Order Service -> User Service -> Profile Service 如果每一层都没有明确 deadline，慢请求会像雪球一样越滚越大。重试不是默认开启就完事很多人一看到失败就想自动重试，但重试最危险的地方在于：如果失败原因是过载，重试可能会让故障更严重。适合重试的场景通常是：短暂网络抖动连接瞬时中断明显的临时性错误不适合盲目重试的场景：已经超时很久的请求非幂等写操作下游明显处于过载状态一个更稳的客户端封装通常像这样： func callWithRetry(ctx context.Context, fn func(context.Context) error) error { var lastErr error backoffs := []time.Duration{50 * time.Millisecond, 100 * time.Millisecond, 200 * time.Millisecond} for _, backoff := range backoffs { if err := fn(ctx); err == nil { return nil } else { lastErr = err } select { case <-time.After(backoff): case <-ctx.Done(): return ctx.Err() } } return lastErr } 这里最重要的不是代码本身，而是策略： ...

Go gRPC Streaming 的流控与内存治理

Go gRPC 服务治理：超时、重试、熔断怎么配合