垃圾回收的概念
垃圾回收(Garbage Collection,简称GC),顾名思义就是释放垃圾占用的空间,防止内存爆掉。有效的使用可以使用的内存,对内存堆中已经死亡的或者长时间没有使用的对象进行清除和回收。
垃圾判断算法
既然JVM要做垃圾回收,就要搞清楚什么是垃圾,什么不是垃圾。通常会使用几种算法来判断一个对象是否是垃圾。
- 引用计数算法
- 可达性分析算法
引用计数算法
引用计数算法(Rebchability Counting)是通过在对象头中分配一个空间来保存该对象被引用的次数(Reference Count)。
如果该对象被其他对象引用,则它的引用计数加1;如果删除对该对象的引用,那么他的引用计数就减1。当该对象的引用计数为0时,那么该对象就会被回收。
String s = new String("芒克芒克");举个栗子,我们来创建一个字符串,这时候“芒克芒克”,有一个引用,就是s。此时Reference Count = 1。
然后将s设置为null。
s = null;这时候“芒克芒克”的引用次数就等于0了,在引用计数算法中,意味着这块内容就需要被回收了。
引用计数算法将垃圾回收分摊到整个应用程序的运行当中,而不是集中在垃圾收集时。
引用计数算法看起来很美好,但实际它存在一个很大的问题,那就是无法解决临时循环依赖的问题。来看以下代码。
public class ReferenceCountingGC { public Object instance; // 对象属性,用于存储对另一个 ReferenceCountingGC 对象的引用 public ReferenceCountingGC(String name) { // 构造方法 } public static void testGC() { // 创建两个 ReferenceCountingGC 对象 ReferenceCountingGC mk = new ReferenceCountingGC("芒克芒克"); ReferenceCountingGC km = new ReferenceCountingGC("克芒克芒"); // 使 a 和 b 相互引用 mk.instance = km; km.instance = mk; // 将 a 和 b 设置为 null mk = null; km = null; // 这个位置是垃圾回收的触发点 } }上述代码中创建了两个ReferenceCountingGC对象mk和km。
然后将它们相互引用。接着,将这两个对象的引用设置为null,理论上它们会在接下来被垃圾回收器回收。但由于它们相互引用着对方,导致它们的引用计算永远都不会为0,通过引用计数算法,也就永远无法通知GC收集器回收它们。
可达性分析算法
可达性分析算法(Reachability Analysis)的基本思路是,通过GCRoots作为起点,然后向下搜索,搜索走过的路径被称为ReferenceChain(引用链),当一个对象到GCRoots之间没有任何引用相连时,即从GCRoots到该对象节点不可达,则证明该对象时需要垃圾手机的。
通过可达性算法,成功解决了引用计数无法解决的问题:“循环依赖”,只要你无法与GCRoot建立直接或间接的连接,系统就会判断你为可回收对象。
所谓的GCRoots,就是一组必须活跃的引用,不是对象,它们是程序运行的起点,是一切引用链的源头。在Java中,GCRoots包括以下几种:
- 虚拟机栈中的引用(方法的参数、局部变量等)
- 本地方法栈中JNI的引用
- 类静态变量
- 运行时常量池中的常量(String或Class类型)
StopTheWorld
Stop The World是Java垃圾收集中的一个重要概念。在垃圾收集过程中,JVM会暂停所有的用户线程,这种暂停被称为“Stop The World”事件。
这么做的主要原因是为了防止在垃圾收集过程中,用户线程修改了堆中的对象,导致垃圾收集器无法准确地收集垃圾。
值得注意的是,“Stop The World”事件会对Java应用的性能产生影响。如果停顿时间过长,就会导致应用的响应时间变长,对于对实时性要求较高的应用,如交易系统,游戏服务器等,这种情况是不能接受的。
因此,在选择和调优垃圾收集器时,需要考虑其停顿时间。Java中的一些垃圾收集器,如GI和ZGC,都会尽可能地减少了“Stop The World”的时间,通过并发的垃圾收集,提高应用的响应性能。
总的来说,“Stop The World”是Java垃圾收集中必须面对的一个挑战,其目标是在保证内存的有效利用和应用的响应性能之间找到一个平衡。
垃圾收集算法
在确定了哪些垃圾可以被回收后,垃圾收集器要做的事情就是进行垃圾回收,但是这里面涉及到一个问题是:如何高效地进行垃圾回收。由于JVM规范并没有对如何实现垃圾收集器做出明确的规定,因此各个厂商的虚拟机可以采用不同的方式来实现垃圾收集器。以下是常见的垃圾收集算法。
标记清除算法
标记清除算法(Mark-Sweep)是最基础的一种垃圾回收算法,它分为2部分,先把内存区域中这些对象进行标记,哪些属于可回收的标记出来(用前面提到的可达性分析法),然后把这些垃圾拎出来清理掉。
就像上图一样,清理掉的垃圾就变成可使用的空闲空间,等待被再次使用。逻辑清晰,并且也很好操作,但它存在一个很大的问题,那就是内存碎片。碎片太多可能会导致当程序运行过程中需要分配较大对象时,因无法找到足够的连续内存而不得不提前触发新一轮的垃圾收集。
复制算法
复制算法(Copying)是在标记清除算法上演化而来的,用于解决标记清除算法的内存碎片问题。它将可用内存按容量划分为大小相等的两块,每次只使用其中的一块。
当这一块的内存用完了,就将还存活着的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。这样就保证了内存的连续性,逻辑清晰,运行高效。
但复制算法也存在一个很明显的问题,合着我这 190 平的大四室,只能当 90 平米的小两室来居住?代价实在太高。
标记整理算法
标记整理算法(Mark-Compact),标记过程仍然与标记清除算法一样,但后续步骤不是直接对可回收对象进行清理,而是让所有存活的对象都向一端移动,再清理掉端边界以外的内存区域。
标记整理算法一方面在标记-清除算法上做了升级,解决了内存碎片的问题,也规避了复制算法只能利用一半内存区域的弊端。看起来很美好,但内存变动更频繁,需要整理所有存活对象的引用地址,在效率上比复制算法差很多。
分代收集算法
分代收集算法(Generational Collection)严格来说并不是一种思想或理论,而是融合上述 3 种基础的算法思想,而产生的针对不同情况所采用不同算法的一套组合拳。
根据对象存活周期的不同会将内存划分为几块,一般是把 Java 堆分为新生代和老年代,这样就可以根据各个年代的特点采用最适当的收集算法。
在新生代中,每次垃圾收集时都发现有大批对象死去,只有少量存活,那就选用复制算法,只需要付出少量存活对象的复制成本就可以完成收集。
老年代中因为对象存活率高、没有额外空间对它进行分配担保,就必须使用标记清理或者标记整理算法来进行回收。
新生代和老年代
堆(Heap)是 JVM 中最大的一块内存区域,也是垃圾收集器管理的主要区域。
堆主要分为 2 个区域,新生代与老年代,其中新生代又分 Eden 区和 Survivor 区,其中 Survivor 区又分 From 和 To 两个区。
Eden区
据 IBM 公司之前的研究表明,有将近 98% 的对象是朝生夕死,所以针对这一现状,大多数情况下,对象会在新生代 Eden 区中进行分配,当 Eden 区没有足够空间进行分配时,JVM 会发起一次 Minor GC,Minor GC 相比 Major GC 更频繁,回收速度也更快。
通过 Minor GC 之后,Eden 区中绝大部分对象会被回收,而那些无需回收的存活对象,将会进到 Survivor 的 From 区,如果 From 区不够,则直接进入 To 区。
Survivor区
Survivor 区相当于是 Eden 区和 Old 区的一个缓冲,类似于我们交通灯中的黄灯。
为啥需要Survivor区?
不就是新生代到老年代吗,直接 Eden 到 Old 不好了吗,为啥要这么复杂。
如果没有 Survivor 区,Eden 区每进行一次 Minor GC,存活的对象就会被送到老年代,老年代很快就会被填满。而有很多对象虽然一次 Minor GC 没有消灭,但其实也并不会蹦跶多久,或许第二次,第三次就需要被清除。
这时候移入老年区,很明显不是一个明智的决定。
所以,Survivor 的存在意义就是减少被送到老年代的对象,进而减少 Major GC 的发生。Survivor 的预筛选保证,只有经历 16 次 Minor GC 还能在新生代中存活的对象,才会被送到老年代。
Survivor为何分成两块?
设置两个 Survivor 区最大的好处就是解决内存碎片化,我们先假设一下,Survivor 只有一个区域会怎样。
Minor GC 执行后,Eden 区被清空,存活的对象放到了 Survivor 区,而之前 Survivor 区中的对象,可能也有一些是需要被清除的。那么问题来了,这时候我们怎么清除它们?
在这种场景下,我们只能标记清除,而我们知道标记清除最大的问题就是内存碎片,在新生代这种经常会消亡的区域,采用标记清除必然会让内存产生严重的碎片化。
但因为 Survivor 有 2 个区域,所以每次 Minor GC,会将之前 Eden 区和 From 区中的存活对象复制到 To 区域。第二次 Minor GC 时,From 与 To 职责互换,这时候会将 Eden 区和 To 区中的存活对象再复制到 From 区域,以此反复。
这种机制最大的好处就是,整个过程中,永远有一个 Survivor space 是空的,另一个非空的 Survivor space 是无碎片的。
那么,Survivor 为什么不分更多块呢?比方说分成三个、四个、五个?
显然,如果 Survivor 区再细分下去,每一块的空间就会比较小,容易导致 Survivor 区满,两块 Survivor 区可能是经过权衡之后的最佳方案。
Old区
老年代占据着 2/3 的堆内存空间,只有在 Major GC 的时候才会进行清理,每次 GC 都会触发“Stop-The-World”。内存越大,STW 的时间也越长,所以内存也不仅仅是越大就越好。
由于复制算法在对象存活率较高的老年代会进行很多次的复制操作,效率很低,所以老年代这里采用的是标记整理算法。
除了上述所说,在内存担保机制下,无法安置的对象会直接进到老年代,以下几种情况也会进入老年代。
大对象
大对象指需要大量连续内存空间的对象,这部分对象不管是不是“朝生夕死”,都会直接进到老年代。这样做主要是为了避免在 Eden 区及 2 个 Survivor 区之间发生大量的内存复制。当你的系统有非常多“朝生夕死”的大对象时,得注意了。
长期存活对象
虚拟机给每个对象定义了一个对象年龄(Age)计数器。正常情况下对象会不断的在 Survivor 的 From 区与 To 区之间移动,对象在 Survivor 区中每经历一次 Minor GC,年龄就增加 1 岁。当年龄增加到 15 岁时,这时候就会被转移到老年代。当然,这里的 15,JVM 也支持进行特殊设置-XX:MaxTenuringThreshold=10。
可通过java -XX:+PrintFlagsFinal -version | grep MaxTenuringThreshold查看默认的阈值。
动态对象年龄
JVM 并不强制要求对象年龄必须到 15 岁才会放入老年区,如果 Survivor 空间中某个年龄段及以上的对象总大小超过了 Survivor 空间的一半,那么该年龄段及以上年龄段的所有对象都会在下一次垃圾回收时被晋升到老年代,无需等你“成年”。
有点类似于负载均衡,轮询是负载均衡的一种,保证每台机器都分得同样的请求。看似很均衡,但每台机器的硬件不同,健康状况不同,所以我们可以基于每台机器接收的请求数、响应时间等,来调整负载均衡算法。
这种动态调整机制有助于优化内存使用和减少垃圾收集的频率,特别是在处理大量短生命周期对象的应用程序时。