Golang内存占用持续增长是什么原因_内存泄漏排查思路_技术教程

HeapAlloc 持续上涨且 GC 后不回落才是内存泄漏真问题；需高频采样 runtime.ReadMemStats 抓趋势，结合 pprof 差分分析 inuse_objects 增长，并排查日志阻塞、cgo 卡住、net.Conn 未关闭等非代码泄漏源。

内存持续增长 ≠ 一定泄漏，但 HeapAlloc 不回落就是真问题

很多同学一看到 top 的 RSS 涨到 1.5GB 就慌，重启完发现又涨回来——结果查了半天是 HeapSys 高、HeapAlloc 却稳定在 8MB。这说明 Go 运行时没把空闲内存还给 OS，不是泄漏，只是“懒”。真正该盯死的指标只有一个：HeapAlloc（已分配且仍在使用的堆内存字节数）。它持续上涨、GC 后不回落，才代表对象被意外强引用，无法回收。

怎么用 `runtime.ReadMemStats` 快速抓趋势

高频采样比单次快照有用得多。每秒调一次 runtime.ReadMemStats，记录 HeapAlloc、NumGC、NextGC，画成折线图，三类异常模式立刻浮现：

HeapAlloc 稳步爬升，每次 GC 后只回落一点点 → 全局 map 忘记 delete、日志缓冲区无限追加、goroutine 闭包捕获了大结构体
NumGC 几乎不动，但 HeapSys 和 HeapInuse 持续扩大 → 可能是 GODEBUG=madvdontneed=1 关闭了主动释放，或 runtime 认为空闲页不够多，暂不归还；也可能是大量小对象导致碎片，回收后仍占大片虚拟地址空间
NextGC 缓慢增大，但 HeapInuse 增速更快 → 新分配远超回收能力，大概率是热点路径频繁 make([]byte, ...) 或 json.Marshal，要用 go tool pprof --alloc_space 定位

注意：每次必须传新 runtime.MemStats{} 变量，别复用指针，否则字段值会污染。

为什么 `pprof heap` 有时看不出泄漏

因为泄漏对象可能只占总堆的 0.3%，在 inuse_space 视图里藏得极深。单看一个快照，就像找一根针掉进草垛——得用时间差放大问题：

先抓一个基线：wget http://localhost:6060/debug/pprof/heap -O before.out
跑 10 分钟业务（比如压测接口），再抓一个：wget ... -O after.out
本地对比：
```
go
 tool pprof -http=:9999 before.out after.out
```
→ pprof 会自动计算差异，高亮增长最多的 allocation site

重点看 inuse_objects（存活对象数）是否也在涨——如果对象数不变但单个变大，可能是缓存膨胀；如果对象数涨了，大概率是 goroutine 泄漏或 timer 未 stop。

排查常被忽略的“非代码”泄漏源

很多内存暴涨根本不是变量没释放，而是底层系统资源卡住，逼 Go runtime 不断开新线程、申请新内存：

日志文件写入阻塞：自研日志库若用同步 os.File.Write + fsync，磁盘慢时每次写都触发阻塞系统调用，runtime 会新建 OS 线程执行，线程不退出，其栈和关联内存就一直挂着
cgo 调用未返回：比如调用了 C 的加密函数或数据库驱动，内部卡在锁或网络等待，Go 会为其绑定专用线程，且不会回收
net.Conn 没 Close：虽然读写是非阻塞的，但连接本身持有 fd、接收缓冲区、TLS 状态等，不关就会累积；尤其 http.Client 默认复用连接，若 response.Body 忘记 Close()，底层连接池不会释放它

检查当前线程数：cat /proc/$(pidof yourapp)/status | grep Threads。如果长期 >50，且 goroutine 数不高，基本可锁定是阻塞系统调用惹的祸。

最麻烦的是那种“半泄漏”：对象逻辑上该释放了，但某个地方悄悄存了引用，比如 context.WithValue 传了个大结构体，下游又塞进全局 map；或者 defer 里写了 defer log.Info(data)，而 data 是个 MB 级切片——defer 会捕获变量值，生命周期直接延长到函数结束。这种细节，光看代码很难揪，必须靠 pprof 差分 + ReadMemStats 趋势双验证。