运维 | BvBeJ的小站

Docker Rootless 模式：落地路径与限制

背景这类问题在真实项目里很常见：高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚，系统才会在压力下保持稳定。实践要点先定义目标：可用性、延迟、成本哪个优先。把关键路径显式化：超时、重试、降级、回滚。把策略写进代码和流程，而不是只停留在文档。代码片段 FROM alpine:3.20 WORKDIR /app COPY . . 总结工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环，才能在生产环境里真正稳定运行。稳定性不是某个技巧，而是持续的系统化约束。

Docker 镜像保留策略：存储成本与回滚能力平衡

背景这类问题在真实项目里很常见：高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚，系统才会在压力下保持稳定。实践要点先定义目标：可用性、延迟、成本哪个优先。把关键路径显式化：超时、重试、降级、回滚。把策略写进代码和流程，而不是只停留在文档。代码片段 FROM alpine:3.20 WORKDIR /app COPY . . 总结工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环，才能在生产环境里真正稳定运行。稳定性不是某个技巧，而是持续的系统化约束。

Kubernetes etcd 碎片整理与维护窗口设计

背景 etcd 长期写删后会出现内部碎片，导致磁盘占用与 I/O 开销上升，影响 API Server 响应。维护策略监控数据库大小与可回收空间比例。在低峰期执行 defrag，分节点滚动处理。与快照备份策略联动，确保可回滚。风险控制禁止在控制面高峰窗口集中 defrag。每次操作后验证 leader 稳定性与请求延迟。把维护结果写入变更审计。小结 etcd 维护是平台稳定性的基础工。把 defrag 变成制度化窗口操作，能显著降低控制面长尾风险。

Kubernetes Secret 轮换：不中断更新实践

背景这类问题在真实项目里很常见：高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚，系统才会在压力下保持稳定。实践要点先定义目标：可用性、延迟、成本哪个优先。把关键路径显式化：超时、重试、降级、回滚。把策略写进代码和流程，而不是只停留在文档。代码片段 apiVersion: v1 kind: ConfigMap metadata: name: sample 总结工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环，才能在生产环境里真正稳定运行。稳定性不是某个技巧，而是持续的系统化约束。

PostgreSQL 表膨胀治理：VACUUM、索引重建与窗口规划

先识别“慢”的来源 SQL 变慢不一定是缺索引，表膨胀和死元组积累会导致扫描范围扩大、缓存命中下降。治理流程建立膨胀指标：表大小、死元组比例、索引膨胀率。调整 autovacuum 阈值与 cost。对重度膨胀索引做在线重建。操作原则大表维护必须做时间窗规划。避免维护任务与业务高峰重叠。维护后验证计划变化而非只看时长。小结数据库维护不是“定时跑任务”，而是围绕 workload 变化做持续调参和窗口管理。

Docker 运行时安全：Seccomp 与 AppArmor 基线

背景这类问题在真实项目里很常见：高并发、复杂依赖、发布频繁、团队协作面广。只有把边界条件提前定义清楚，系统才会在压力下保持稳定。实践要点先定义目标：可用性、延迟、成本哪个优先。把关键路径显式化：超时、重试、降级、回滚。把策略写进代码和流程，而不是只停留在文档。代码片段 FROM alpine:3.20 WORKDIR /app COPY . . 总结工程实践最怕“看起来正确”。把策略做成可观测、可验证、可回滚的闭环，才能在生产环境里真正稳定运行。稳定性不是某个技巧，而是持续的系统化约束。

Go 服务优雅重启：systemd 配合实践

背景裸重启进程很简单，但线上会带来短暂不可用。优雅重启的目标是：停止接收新连接等待在途请求处理完平滑切换到新进程 Go 侧的退出处理 srv := &http.Server{Addr: ":8080", Handler: mux} go func() { if err := srv.ListenAndServe(); err != nil && err != http.ErrServerClosed { log.Fatal(err) } }() sigCh := make(chan os.Signal, 1) signal.Notify(sigCh, syscall.SIGTERM, syscall.SIGINT) <-sigCh ctx, cancel := context.WithTimeout(context.Background(), 15*time.Second) defer cancel() _ = srv.Shutdown(ctx) Shutdown 会先关闭监听，再等待连接收尾。 systemd 关键配置 [Service] ExecStart=/opt/app/server Restart=always RestartSec=2 TimeoutStopSec=20 KillSignal=SIGTERM KillSignal=SIGTERM 给应用机会走优雅退出逻辑 TimeoutStopSec 要大于应用 Shutdown 超时发布建议先在网关层摘流量再重启实例观察错误率与连接数回落小结优雅重启不是一个函数调用，而是应用与进程管理器协同设计。把退出路径做好，发布风险会明显下降。

Kubernetes 探针与优雅退出：避免滚动发布抖动

常见事故模式发布时最容易看到这几类问题： Pod 刚启动就被打流量，依赖还没就绪应用短暂卡顿被 liveness 误杀 Pod 被删时连接直接断开，导致错误尖峰三类探针分工 startupProbe：启动阶段保护期 readinessProbe：是否可以接收流量 livenessProbe：进程是否需要重启不要用 liveness 去做复杂业务检查，它更适合检测“进程是否活着”。终止流程要完整示例配置： spec: terminationGracePeriodSeconds: 30 containers: - name: api lifecycle: preStop: exec: command: ["/bin/sh", "-c", "sleep 8"] 应用内部还需要做到：收到 SIGTERM 后停止接收新请求等待在途请求结束关闭连接池与后台任务一个经验值如果入口网关或 Service Mesh 更新端点需要几秒，preStop 这几秒很关键。它给控制面收敛时间，避免流量打到即将退出的 Pod。结语高可用不是靠单个参数，而是探针策略和退出流程共同生效。发布稳定性通常是这些细节堆出来的。