性能优化 | BvBeJ的小站

Rust 零拷贝序列化：什么时候值得做

先明确目标 “零拷贝”不是为了炫技，而是为了减少：内存分配次数数据复制成本 GC 或 allocator 压力在高吞吐场景里，收益通常很直接。借用驱动的数据视图 Rust 的借用模型天然适合做零拷贝读取： #[derive(Debug)] struct Header<'a> { trace_id: &'a str, method: &'a str, } fn parse_header<'a>(trace_id: &'a str, method: &'a str) -> Header<'a> { Header { trace_id, method } } 这里没有分配新字符串，只是借用了输入切片。适用边界适合：协议解析日志处理消息中间件消费链路不适合：需要长期持有数据跨线程传递接口边界复杂，生命周期管理成本过高工程上的折中热路径零拷贝冷路径允许复制换可读性用基准测试验证收益，而不是主观判断小结零拷贝是性能工具，不是教条。只有在瓶颈路径上，它才是值得支付复杂度的优化。

C++ 性能优化：从缓存友好的数据布局开始

先问一个问题同样是 O(n)，为什么有的循环快很多？答案常常不在算法复杂度，而在 CPU cache 命中率。现代 CPU 的瓶颈常常是内存访问，不是算术指令。 AoS 与 SoA 常见结构： struct Particle { float x, y, z; float vx, vy, vz; int alive; }; std::vector<Particle> particles; 如果你只更新位置，实际上每次还会把速度和状态也加载进缓存。更好的方式是 SoA： struct Particles { std::vector<float> x, y, z; std::vector<float> vx, vy, vz; std::vector<int> alive; }; 这样 CPU 读取的数据更“纯”，预取更有效。减少伪共享多线程里，两个线程写不同变量也可能互相拖慢，因为它们落在同一 cache line。 struct alignas(64) Counter { std::atomic<uint64_t> value; }; 用对齐把热点写入隔离开，通常能明显降低抖动。少做指针追逐链表、树这类结构在理论上优雅，但在缓存层面很吃亏。工程上更常见的折中是：用连续数组表示节点池索引代替裸指针批量遍历而不是随机跳转实践建议先用 profiler 看 cache miss，再改代码热路径优先考虑连续内存把“数据怎么放”当成接口设计的一部分小结性能优化不是玄学。对于 C++，缓存友好的数据布局往往比微观语法技巧更值回票价。

C++ 内存池实践：高频对象分配的性能优化

背景写 C++ 服务或者引擎代码时，经常会碰到一种情况：CPU 看着不高，但延迟就是压不下去。最后一 profile，热点不在算法，也不在锁，而是在 operator new 和 operator delete。这类问题在下面几种场景里尤其常见：网络服务里大量创建短生命周期请求对象游戏引擎里频繁分配小型组件消息队列消费者持续构造临时 buffer 如果对象大小固定，或者分布相对集中，内存池通常是很直接的一刀。为什么默认分配器会成为瓶颈通用分配器要解决的问题很多：不同尺寸的内存申请跨线程竞争碎片整理对齐要求这些能力都很重要，但它们也意味着额外开销。如果你的场景很单一，比如“每次都申请一个 256 字节的请求对象”，那继续走通用分配器其实是在为用不到的能力买单。一个简单的固定块内存池先看一个足够说明问题的版本。 #include <cstddef> #include <new> #include <vector> class MemoryPool { public: MemoryPool(std::size_t blockSize, std::size_t blockCount) : block_size_(blockSize) { data_.resize(blockSize * blockCount); for (std::size_t i = 0; i < blockCount; ++i) { void* ptr = data_.data() + i * blockSize; free_list_.push_back(ptr); } } void* allocate() { if (free_list_.empty()) { throw std::bad_alloc(); } void* ptr = free_list_.back(); free_list_.pop_back(); return ptr; } void deallocate(void* ptr) { free_list_.push_back(ptr); } private: std::size_t block_size_; std::vector<char> data_; std::vector<void*> free_list_; }; 思路很直接： ...

C++ 无锁队列：从 CAS 到内存序

背景只要做过高并发服务、游戏引擎或者低延迟组件，迟早会碰到一个问题：锁太重了。典型场景包括：生产者线程持续推消息消费者线程高频拉取任务临界区很短，但锁竞争很激烈延迟指标对尾部抖动非常敏感这时候很多人第一反应是“上无锁队列”。方向没错，但无锁代码最危险的地方在于：看起来能跑，不代表一定正确。尤其在 C++ 里，只会用 compare_exchange_weak 还不够，真正决定正确性的往往是内存序。无锁不等于没有同步先澄清一个常见误区： mutex 是同步原子变量也是同步无锁结构只是把同步方式从“阻塞锁”换成了“原子操作 + 内存可见性约束”。也就是说，你不是不需要同步了，而是需要更精确地控制同步。一个最简单的 SPSC 环形队列先从单生产者、单消费者模型说起。这个模型更适合作为理解内存序的起点。 #include <atomic> #include <array> #include <cstddef> template <typename T, std::size_t N> class SpscQueue { public: bool push(const T& value) { const auto tail = tail_.load(std::memory_order_relaxed); const auto next = (tail + 1) % N; if (next == head_.load(std::memory_order_acquire)) { return false; } buffer_[tail] = value; tail_.store(next, std::memory_order_release); return true; } bool pop(T& value) { const auto head = head_.load(std::memory_order_relaxed); if (head == tail_.load(std::memory_order_acquire)) { return false; } value = buffer_[head]; head_.store((head + 1) % N, std::memory_order_release); return true; } private: std::array<T, N> buffer_{}; std::atomic<std::size_t> head_{0}; std::atomic<std::size_t> tail_{0}; }; 这个实现不复杂，但已经体现了两个关键点： ...

Vue3 性能优化：从响应式细节到页面加载

背景前端性能这件事，经常有两个极端：一种是完全不管，页面卡了再说另一种是上来就讲虚拟列表、SSR、代码分割，结果项目里真正拖慢页面的点根本不在那 Vue3 本身已经做了不少优化，但框架快，不代表业务代码就一定快。真正影响体验的，通常还是这些问题：不必要的响应式开销大列表重复渲染首屏加载资源过大 watch 写得太随意，副作用失控这篇文章只聊实战里最常见、最值回票价的优化点。先判断瓶颈在哪优化前先确认问题类型。通常分三类：首屏慢 JS 包太大、资源太多、接口太慢。交互卡某个状态变更引起大面积重渲染。长列表卡 DOM 数量过多，滚动和 patch 开销都很高。这三类问题的解决手段完全不同。不要把“页面卡”都归因到 Vue 响应式。不要把所有东西都塞进 reactive 很多项目里常见这种写法： const state = reactive({ tableData: [], chartInstance: null, editor: null, wsConnection: null, filters: { keyword: '', status: 'all', }, }) 看起来统一，实际上问题不少。像图表实例、编辑器对象、WebSocket 连接这种第三方对象，本来就不是拿来做细粒度响应式追踪的。把它们塞进深层响应式对象里，只会增加代理成本，还可能带来奇怪副作用。更合理的拆法是： import { reactive, shallowRef, markRaw } from 'vue' const filters = reactive({ keyword: '', status: 'all', }) const tableData = shallowRef<User[]>([]) const chartInstance = shallowRef<any>(null) const editor = shallowRef<any>(null) function initChart(el: HTMLDivElement) { chartInstance.value = markRaw(createChart(el)) } 这里的思路很明确：业务表单状态，用 reactive 大数组、外部实例，用 shallowRef 不希望被代理的对象，用 markRaw 这不是“写法偏好”，而是直接影响更新成本。 ...