目录

Go 原理之 gc 垃圾回收机制:三色标记 + 混合写屏障(需要 STW)

Go 原理之 gc 垃圾回收机制

一、常见垃圾回收算法

垃圾回收算法 描述 代表语言 优缺点
引用计数 为每个对象维护一个引用计数,记录对象被引用的次数
每当一个对象被引用时,引用计数就会增加。
当对象不再被引用时,引用计数就会减少。
如果对象的引用计数变为 0,
则对象可以被垃圾回收器回收
PythonPHP 优点
实现简单,处理快
缺点
无法处理循环引用,两个对象相互引用,计数永远不为0
分代收集 按照对象生命周期长短划分不同的代空间,
生命周期长的放入老年代,短的放入新生代,
不同代有不同的回收算法和回收频率
Java 优点
性能好
缺点
需要 STW,算法复杂
三色标记法 从根变量开始遍历所有引用的对象,标记引用的对象为不同颜色,
被标记为白色的对象进行回收
Golang 优点
解决了引用计数的缺点
缺点
需要 STW,暂时停掉程序运行

注意⚠️:以上都需要 STW

二、Go 的 gc:三色标记 + 混合写屏障

(一)三色标记

v1.13之前,go 使用的是 标记-清除法,需要 stw ,效率极低;

v1.15之后,go 采用 三色标记 + 混合写屏障 极大的降低stw的时间,提高gc性能

三色标记白色(清除对象) + 灰色(过渡对象,受保护, 最终变黑色) + 黑色(受保护)

可达对象引用关系举例

可达的意思就是可以关联到的,有对象引用它了

对象1 = 对象2 // 对象2可达,对象1引用了对象2,对象2 被 对象1 引用
对象1 = 对象3
对象2 = 对象3
对象2 = 对象5

三色标记-流程

    1. 初始时,所有对象被标记为白色
    1. gc 开始,遍历 rootset 根节点,将有引用对象的对象标记为 灰色,存入灰色对象列表
    1. 遍历 灰色对象,将直接可达对象标记为 灰色,并将自身标记为 黑色
    1. 重复第3步,直到标记完所有的对象 (灰色对象列表为空)
    1. 将白色对象清除,保留黑色对象

/img/go-gc/1.png
image-20230413112723437

(二)混合写屏障

三色标记存在并发问题:

在三色标记期间,如果没有STW,并发创建对象,可能存在 == 垃圾对象或误删对象 == 的情况:

    1. 黑色对象的引用对象被删除,则不可达,正常黑色对象应该被回收,但是gc期间只会循环遍历灰色列表,不会回收黑色对象,因此该对象为垃圾对象 (多余垃圾对象)

      eg:对象1已经被标记为黑色,表示该对象有引用方,受保护,如果没有stw,该对象的引用可能被删除,正常应该转为白色对象被清除,然gc并不会清除黑色对象

    1. 黑色对象引用了白色对象,白色对象有了引用对象应该被保护,但仍然被无情的回收 (清掉不该清的对象)

    ​ 白色对象只有被灰色对象引用情况,才会判断是否需要清理,白色对象如果在gc期间引用了黑色对象,那只会被误删除

所以 go 引入了 混合写屏障 机制,满足:

  • 强三色不变式:黑色对象不允许引用了白色对象;因为一旦引用,该黑色对象将不会继续参与 gc,白色对象会被无理清除
  • 弱三色不变式:黑色对象可以引用白色对象,但该白色对象必须被其它灰色对象或其上游有灰色对象引用,否则该白色对象将被无理清除

这里需要注意一点,插入屏障仅会在堆内存中生效,不对栈内存空间生效,这是因为 go 在并发运行时,大部分的操作都发生在栈上,函数调用会非常频繁。

数十万goroutine的栈都进行屏障保护自然会有性能问题

所以 gc 期间,任何在栈上新创建的对象,均为黑色。

混合写屏障 开启期间 描述
插入写屏障 创建的新对象为灰色对象 满足:强三色不变式。
不会存在黑色对象引用白色对象
删除写屏障 被删除的对象,如果自身为灰色或者白色,那么被标记为灰色 满足:弱三色不变式
(保护灰色对象到白色对象的路径不会断)

(三)优缺点

优点:

    减少stw时间,三色标记需要stw整个程序,混合写屏障(分段stw)可以有效降低stw的时间

缺点:

    回收精度低,有些垃圾需要在下一轮 gc 清理

(四)完整的 gc 流程

三色标记 + 混合写屏障

  • 标记准备(Mark Setup):开启混合写屏障(Write Barrier),需 STW(stop the world)
  • 标记开始(Marking):使用三色标记法并发标记 ,与用户程序并发执行
  • 标记终止(Mark Termination):对触发写屏障的对象进行重新扫描标记,关闭写屏障(Write Barrier),需 STW(stop the world)
  • 清理(Sweeping):将需要回收的内存归还到堆中,将过多的内存归还给操作系统,与用户程序并发执行

三、源码解析

/go/1.18.3/libexec/src/runtime/mgc.go

四、常见问题

1. gc 多久执行一次,什么时候触发

  • 定时触发:Go 运行时系统会根据一定的时间间隔定期触发垃圾回收。时间间隔根据程序的内存使用情况和性能需求进行自适应调整
  • 内存分配触发:当程序申请的内存超过一定阈值时,Go 运行时会触发垃圾回收,以防止过度使用内存
  • 栈伸缩触发:当 Goroutine 的栈空间不足以容纳当前的执行需要时,Go 运行时会触发垃圾回收来扩展栈空间
  • 主动触发:调用 runtime.GC
  • 空间不足时触发: 当前线程的内存管理单元中不存在空闲空间时,创建32KB以下的对象可能触发垃圾收集,创建32KB以上的对象时,一定会尝试触发

2. 为什么混合写屏障不保护栈的引用

因为go在并发运行时,大部分的操作都发生在栈上,函数调用会非常频繁。数十万goroutine的栈都进行屏障保护自然会有性能问题

虽然混合写屏障不保护栈上的引用,但 Go 语言的垃圾回收器在标记终止阶段会对栈进行重新扫描。在这个阶段,会暂停所有的用户程序(STW),对栈上的对象和引用进行精确的标记,确保所有可达对象都被正确标记。这样就弥补了不使用写屏障保护栈上引用的不足,保证了垃圾回收的正确性。

综上所述,混合写屏障不保护栈的引用是为了在保证垃圾回收正确性的前提下,尽可能提高程序的性能和降低实现复杂度。通过栈重新扫描机制,也能确保栈上的可达对象不会被错误回收。

3. gc 过程中那一部分使用了 STW

  • 标记准备阶段(Mark Setup)

    在这个阶段,垃圾回收器需要初始化标记状态,开启写屏障等操作。为了确保标记的正确性,需要暂停所有的用户程序,进行 STW

    在标记阶段开始前会进行一次STW,暂停所有goroutine的执行,然后再进行标记操作

  • 标记终止阶段(Mark Termination)

    在并发标记阶段结束后,可能还有一些标记工作没有完成,如一些新创建的对象或者修改的引用关系没有被标记。因此,需要暂停所有的用户程序,完成剩余的标记工作,关闭写屏障,统计所有需要回收的对象。