Go 原理之 gc 垃圾回收机制:三色标记 + 混合写屏障(需要 STW)
Go 原理之 gc 垃圾回收机制
一、常见垃圾回收算法
垃圾回收算法 | 描述 | 代表语言 | 优缺点 |
---|---|---|---|
引用计数 | 为每个对象维护一个引用计数,记录对象被引用的次数 每当一个对象被引用时,引用计数就会增加。 当对象不再被引用时,引用计数就会减少。 如果对象的引用计数变为 0, 则对象可以被垃圾回收器回收 |
Python、PHP | 优点: 实现简单,处理快 缺点: 无法处理循环引用,两个对象相互引用,计数永远不为0 |
分代收集 | 按照对象生命周期长短划分不同的代空间, 生命周期长的放入老年代,短的放入新生代, 不同代有不同的回收算法和回收频率 |
Java | 优点: 性能好 缺点: 需要 STW,算法复杂 |
三色标记法 | 从根变量开始遍历所有引用的对象,标记引用的对象为不同颜色, 被标记为白色的对象进行回收 |
Golang | 优点: 解决了引用计数的缺点 缺点: 需要 STW,暂时停掉程序运行 |
注意⚠️:以上都需要 STW
二、Go 的 gc:三色标记 + 混合写屏障
(一)三色标记
v1.13之前,go 使用的是 标记-清除法,需要 stw ,效率极低;
v1.15之后,go 采用 三色标记 + 混合写屏障 极大的降低stw的时间,提高gc性能
三色标记:白色(清除对象) + 灰色(过渡对象,受保护, 最终变黑色) + 黑色(受保护)
可达对象引用关系举例
可达的意思就是可以关联到的,有对象引用它了
对象1 = 对象2 // 对象2可达,对象1引用了对象2,对象2 被 对象1 引用 对象1 = 对象3 对象2 = 对象3 对象2 = 对象5
三色标记-流程
-
- 初始时,所有对象被标记为白色
-
- gc 开始,遍历 rootset 根节点,将有引用对象的对象标记为 灰色,存入灰色对象列表
-
- 遍历 灰色对象,将直接可达对象标记为 灰色,并将自身标记为 黑色
-
- 重复第3步,直到标记完所有的对象 (灰色对象列表为空)
-
- 将白色对象清除,保留黑色对象
(二)混合写屏障
三色标记存在并发问题:
在三色标记期间,如果没有STW,并发创建对象,可能存在 == 垃圾对象或误删对象 == 的情况:
-
-
黑色对象的引用对象被删除
,则不可达,正常黑色对象应该被回收,但是gc期间只会循环遍历灰色列表,不会回收黑色对象,因此该对象为垃圾对象(多余垃圾对象)
eg:对象1已经被标记为黑色,表示该对象有引用方,受保护,如果没有stw,该对象的引用可能被删除,正常应该转为白色对象被清除,然gc并不会清除黑色对象
-
-
黑色对象引用了白色对象
,白色对象有了引用对象应该被保护,但仍然被无情的回收(清掉不该清的对象)
白色对象只有被灰色对象引用情况,才会判断是否需要清理,白色对象如果在gc期间引用了黑色对象,那只会被误删除
所以 go 引入了 混合写屏障 机制,满足:
- 强三色不变式:黑色对象不允许引用了白色对象;因为一旦引用,该黑色对象将不会继续参与 gc,白色对象会被无理清除
- 弱三色不变式:黑色对象可以引用白色对象,但该白色对象必须被其它灰色对象或其上游有灰色对象引用,否则该白色对象将被无理清除
这里需要注意一点,插入屏障仅会在堆内存中生效,不对栈内存空间生效,这是因为 go 在并发运行时,大部分的操作都发生在栈上,函数调用会非常频繁。
数十万goroutine的栈都进行屏障保护自然会有性能问题
所以 gc 期间,任何在栈上新创建的对象,均为黑色。
混合写屏障 | 开启期间 | 描述 |
---|---|---|
插入写屏障 | 创建的新对象为灰色对象 | 满足:强三色不变式。 不会存在黑色对象引用白色对象 |
删除写屏障 | 被删除的对象,如果自身为灰色或者白色,那么被标记为灰色 | 满足:弱三色不变式 (保护灰色对象到白色对象的路径不会断) |
(三)优缺点
优点:
减少stw时间,三色标记需要stw整个程序,混合写屏障(分段stw)可以有效降低stw的时间
缺点:
回收精度低,有些垃圾需要在下一轮 gc 清理
(四)完整的 gc 流程
三色标记 + 混合写屏障
- 标记准备(Mark Setup):开启混合写屏障(Write Barrier),需 STW(stop the world)
- 标记开始(Marking):使用三色标记法并发标记 ,与用户程序并发执行
- 标记终止(Mark Termination):对触发写屏障的对象进行重新扫描标记,关闭写屏障(Write Barrier),需 STW(stop the world)
- 清理(Sweeping):将需要回收的内存归还到堆中,将过多的内存归还给操作系统,与用户程序并发执行
三、源码解析
/go/1.18.3/libexec/src/runtime/mgc.go
四、常见问题
1. gc 多久执行一次,什么时候触发
- 定时触发:Go 运行时系统会根据一定的时间间隔定期触发垃圾回收。时间间隔根据程序的内存使用情况和性能需求进行自适应调整
- 内存分配触发:当程序申请的内存超过一定阈值时,Go 运行时会触发垃圾回收,以防止过度使用内存
- 栈伸缩触发:当 Goroutine 的栈空间不足以容纳当前的执行需要时,Go 运行时会触发垃圾回收来扩展栈空间
- 主动触发:调用 runtime.GC
- 空间不足时触发: 当前线程的内存管理单元中不存在空闲空间时,创建32KB以下的对象可能触发垃圾收集,创建32KB以上的对象时,一定会尝试触发
2. 为什么混合写屏障不保护栈的引用
因为go在并发运行时,大部分的操作都发生在栈上,函数调用会非常频繁。数十万goroutine的栈都进行屏障保护自然会有性能问题
虽然混合写屏障不保护栈上的引用,但 Go 语言的垃圾回收器在标记终止阶段会对栈进行重新扫描。在这个阶段,会暂停所有的用户程序(STW),对栈上的对象和引用进行精确的标记,确保所有可达对象都被正确标记。这样就弥补了不使用写屏障保护栈上引用的不足,保证了垃圾回收的正确性。
综上所述,混合写屏障不保护栈的引用是为了在保证垃圾回收正确性的前提下,尽可能提高程序的性能和降低实现复杂度。通过栈重新扫描机制,也能确保栈上的可达对象不会被错误回收。
3. gc 过程中那一部分使用了 STW
-
标记准备阶段(Mark Setup)
在这个阶段,垃圾回收器需要初始化标记状态,开启写屏障等操作。为了确保标记的正确性,需要暂停所有的用户程序,进行 STW
在标记阶段开始前会进行一次STW,暂停所有goroutine的执行,然后再进行标记操作
-
标记终止阶段(Mark Termination)
在并发标记阶段结束后,可能还有一些标记工作没有完成,如一些新创建的对象或者修改的引用关系没有被标记。因此,需要暂停所有的用户程序,完成剩余的标记工作,关闭写屏障,统计所有需要回收的对象。