JVM -- 垃圾收集算法

一、前言

　　在学习垃圾回收算法之前，先了解以下内容：

　　1.什么是GC？ 2.GC的工作区域在哪里？ 3.GC的时机是什么？ 4.GC的对象　　5.GC做了哪些事？

　什么是GC？

　　每个程序员都遇到过内存溢出的情况，程序运行时，内存空间是有限的，那么如何及时的把不再使用的对象清除将内存释放出来，这就是GC要做的事。

　GC的工作区域在哪里？

　　jvm 中，程序计数器、虚拟机栈、本地方法栈都是随线程而生随线程而灭，栈帧随着方法的进入和退出做入栈和出栈操作，实现了自动的内存清理，因此，我们的内存垃圾回收主要集中于 java 堆和方法区中，在程序运行期间，这部分内存的分配和使用都是动态的。

　GC的对象

　　需要进行回收的对象就是已经没有存活的对象，判断一个对象是否存活常用的有两种办法：引用计数和可达分析。 [这两个办法详情：https://www.cnblogs.com/FondWang/p/11840522.html]

　GC的时机是什么？

　　(1)程序调用System.gc时可以触发

　　(2)系统自身来决定GC触发的时机（根据Eden区和From Space区的内存大小来决定。当内存大小不足时，则会启动GC线程并停止应用线程）

　GC做了哪些事？

　　主要做了清理对象，整理内存的工作。Java堆分为新生代和老年代，采用了不同的回收方式。（回收方式即回收算法详见后文）

以上内容参考：https://www.cnblogs.com/jobbible/p/9800222.html

二、垃圾收集算法　

标记 - 清除算法

　　最基础的收集算法是“标记-清除”（Mark-Sweep）算法，如同它的名字一样，算法分为“标记”和“清除”两个阶段：首先标记出所有需要回收的对象，在标记完成后统一回收所有被标记的对象。

　　同时它有两个不足的问题：

　　　　1. 效率问题，标记和清除两个过程的效率都不高；

　　　　2. 空间问题，标记清除之后会产生大量不连续的内存碎片。

回收后我们看到，空间碎片可能太多，这就可能导致以后在程序运行过程中需要分配较大对象时，无法找到足够的连续内存而不得不提前触发另一次垃圾收集动作。

复制算法

　　为了解决效率问题，“复制”（Copying）的收集算法出现了：它将可用内存按容量划分为大小相等的两块，每次只使用其中的一块。当这一块的内存用完了，就将还存活的对象复制到另外一块上面，然后再把已使用过的内存空间一次清理掉。

　复制收集算法在对象存活率较高时就要执行较多的复制操作，效率将会变低。更关键的是，浪费了一半的空间，还需要额外的空间进行分配担保。

标记 - 整理算法

　　　标记整理算法与标记清除算法很相似，但最显著的区别是：标记清除算法仅对不存活的对象进行处理，剩余存活对象不做任何处理，造成内存碎片；而标记整理算法不仅对不存活对象进行处理清除，还对剩余的存活对象进行整理，重新整理，因此其不会产生内存碎片。【《深入理解java虚拟机》：标记过程仍然与“标记-清除”算法一样，但后续步骤不是直接对可回收对象进行清理，而是让所有存活的对象向一端移动，然后直接清理掉边界以外的内存】

分代收集算法

　　根据对象存活周期的不同将内存划分为几块。 分代收集算法是一种比较智能的算法，也是现在jvm使用最多的一种算法，他本身其实不是一个新的算法，而是他会在具体的区域自动选择以上三种算法进行垃圾对象回收。

　　1.7之前jvm把内存分为三个区域:新生代，老年代，永久代。

了解过区域之后再结合分代收集算法得出结论：
　　1、在新生代中，每次垃圾收集时都发现有大批对象死去，只有少量存活，那就选用复制算法。只需要付出少量存活对象的复制成本就可以完成收集。
　　2、老年代中因为对象存活率高、没有额外空间对他进行分配担保，就必须用标记-清除或者标记-整理。

注意: 在jdk8的时候java废弃了永久代，但是并不意味着我们以上的结论失效，因为java提供了与永久代类似的叫做“元空间”的技术。

废弃永久代的原因：由于永久代内存经常不够用或发生内存泄露，爆出异常java.lang.OutOfMemoryErroy。元空间的本质和永久代类似。

不过元空间与永久代之间最大的区别在于：元空间并不在虚拟机中，而是使用本地内存。

也就是不局限与jvm可以使用系统的内存。理论上取决于32位/64位系统可虚拟的内存大小。

参考：http://note.youdao.com/noteshare?id=64130a910e2473207f52a7694eb3d0e0

三、HotSpot的算法实现

　　枚举根节点

　　以可达性分析中从GC Roots 节点找引用链这个操作为例，可作为GC Roots 的节点主要在全局性的引用（例如常量或类静态属性）与执行上下文（例如栈帧中的本地变量表）中，现在的很多应用仅仅方法区就有数百兆，如果要逐个检查这里面的引用，那么必然会消耗很多时间。

　　另外，可达性分析对执行时间的敏感还体现在GC停顿上，因为这项分析工作必须在一个能确保一致性的快照中进行—这里的一致性的意思是指在整个分析期间整个执行系统看起来像被冻结在某个时间点上，不可以出现在分析过程中对象引用关系还在不断的变化，该点不满足的话分析结果的准确性就无法得到保证。这点导致GC进行时必须停顿所有Java执行线程（Sun称这件事情为“Stop The World”）的其中一个重要的原因，即使在号称（几乎）不会发生停顿的CMS收集器中，枚举根节点时也是必须要停顿的。

　　目前主流的Java虚拟机使用的都是准确式GC，所以当执行系统停顿下来后，并不需要一个不漏的检查完所有的执行上下文和全局的引用位置，虚拟机应当是有办法直接得知哪些地方存在着对象引用。在HotSpot的实现中，是使用一组称为OopMap的数据结构来达到这个目的的，在类加载完成的时候，HotSpot就把对象内什么偏移量上是什么类型的数据计算出来，在JIT编译过程中，也会在特定的位置记录下栈和寄存器中哪些位置是引用。这样，GC在扫描时就可以直接得知这些信息了。

　　安全点（Safepoint）

　　在OopMap的协助下，HotSpot可以快速且准确的完成GC Roots枚举，但一个很现实的问题随之而来：可能导致引用关系变化，或者说OopMap内容变化的指令非常多，如果为每一条指令都生成对应的OopMap，那么将需要大量的额外空间，这样GC 的空间成本将会变得很高。

　　实际上，HotSpot也的确没有为每条指令都生成OopMap，前面已经提到，只是在“特定的位置”记录这些信息，这些问题称为（Safepoint），即程序执行时并非所有地方都能停顿下来开始GC，只有到达安全点才能暂停。Safepoint的选定既不能太少以至于让GC等待时间太长，也不能过于频繁以至于过分增大运行时负荷。所以，安全点的选定基本上是以程序“是否具有让程序长时间执行的特征”为标准进行选定的—因为每条指令执行的时间都非常短暂，程序不太可能因为指令流长度太长这个原因而过长时间运行，“长时间执行”的最明显特征就是指令序列复用。例如：方法调用、循环跳转、异常跳转等，所以具有这些功能的指令才会产生Safepoint。

　　对于Safepoint，另外一个需要考虑的问题是如何在GC发生时让所有线程（这里不包括执行JNI调用的线程）都跑到最近的安全点再停顿下来，有两种方案：

　　　　1. 抢先式中断（Preemptive Suspension）：在GC发生时，首先把所有线程全部中断，如果发现有线程中断的地方不在安全点上，就恢复线程，让其跑到安全点上；（几乎没有虚拟机使用这种方式）

　　　　2. 主动式中断（Voluntary Suspension）：当GC需要中断线程时，不直接对线程操作，仅仅简单设置一个标志，各个线程执行时主动去轮询这个标志，发现中断标志为真时就自己中断挂起。其中轮询标志的地方和安全点是重合的，另外再加上创建对象需要分配内存的地方。

　　安全区域（Safe Region）

　　上面讲述的Safepoint似乎已经完美的解决了如何进入GC的问题，但实际情况却不一定。Safepoint机制保证了程序执行时，在不长的时间内就会遇到可进入GC的Safepoint。但是，程序不执行的时候呢？所谓的程序不执行就是没有分配CPU时间，典型的例子就是线程处于sleep状态或者Blocked状态，这时候线程无法响应JVM的中断请求，“走”到安全的地方去中断挂起，JVM显然也不太可能等待线程重新被分配CPU时间。这种情况，就需要安全区域来解决了。

　　安全区域是指在一段代码片段之中，引用关系不会发生变化。在这个区域中的任意地方开始GC都是安全的。可以把安全区域看做是扩展了的安全点。

　　在线程执行到安全区域的代码时，首先标识自己进入到了安全区域，这样，当这段时间内JVM要发起GC时，就不用管标识自己为安全区域状态的线程了；在线程要离开安全区域时，它要检查是否系统已经完成了枚举根节点（或整个GC过程），如果完成了，那么线程就继续执行，否则就必须等待到直到收到可以安全离开安全区域的信号为止。

四、垃圾收集器

　　垃圾收集器是垃圾回收算法（标记-清除算法、复制算法、标记-整理算法、火车算法）的具体实现，不同商家、不同版本的JVM所提供的垃圾收集器可能会有很在差别，本文主要介绍HotSpot虚拟机中的垃圾收集器。

　1-1、垃圾收集器的组合

  JDK7/8后，HotSpot虚拟机所有收集器及组合（连线），如下图：

（A）、图中展示了7种不同分代的收集器：

       Serial、ParNew、Parallel Scavenge、Serial Old、Parallel Old、CMS、G1；

（B）、而它们所处区域，则表明其是属于新生代收集器还是老年代收集器：

      新生代收集器：Serial、ParNew、Parallel Scavenge；

      老年代收集器：Serial Old、Parallel Old、CMS；

      整堆收集器：G1；

（C）、两个收集器间有连线，表明它们可以搭配使用：

       Serial/Serial Old、Serial/CMS、ParNew/Serial Old、ParNew/CMS、Parallel Scavenge/Serial Old、Parallel Sacvenge/Parallel Old、G1；

　　1-2 并发垃圾收集和并行垃圾收集的区别

　　　　（A）、并行（Parallel）

　　　　　　指多条垃圾收集线程并行工作，但此时用户线程仍然处于等待状态；

　　　　　　如ParNew、Parallel Scavenge、Parallel Old；

　　　　（B）、并发（Concurrent）

　　　　　　指用户线程与垃圾收集线程同时执行（但不一定是并行的，可能会交替执行）；

　　　　　　用户程序在继续运行，而垃圾收集程序线程运行于另一个CPU上；

　　　　　　如CMS、G1（也有并行）；

　　1-3、Minor GC和Full GC的区别

　　　　（A）、Minor GC

　　　　又称新生代GC，指发生在新生代的垃圾收集动作；

　　　　因为Java对象大多是朝生夕灭，所以Minor GC非常频繁，一般回收速度也比较快；

　　　　（B）、Full GC

　　　　又称Major GC或老年代GC，指发生在老年代的GC；

　　　　出现Full GC经常会伴随至少一次的Minor GC（不是绝对，Parallel Sacvenge收集器就可以选择设置Major GC策略）；

　　　　 Major GC速度一般比Minor GC慢10倍以上；

将介绍这些收集器的特性、基本原理和使用场景，并重点分析CMS和G1这两款相对复杂的收集器；但需要明确一个观点：

      没有最好的收集器，更没有万能的收集；

      选择的只能是适合具体应用场景的收集器。

　　2. Serial 收集器

　　　　Serial收集器是最基本、发展历史最悠久的收集器。JDK1.3之前，是虚拟机新生代收集的唯一选择。

　　　　①特点

　　　　　　1.针对新生代；

　　　　　　2.单线程；

　　　　　　3.采用复制算法；

　　　　　　4.进行GC时，停掉所有工作线程，直到完成。（Stop The World： JVM在后台自动发起和自动完成的，在用户不可见的情况下，把用户正常的工作线程全部停掉，即GC停顿；）

　　　　Serial/Serial Old收集器的运行过程：

　　　　②应用场景

　　　　　　依然是HotSpot在Client模式下默认的新生代收集器；

　　　　　　对于限定单个cup的环境来说，Serial收集器没有线程交互（切换）开销，可以获得最高的单线程收集效率，与其他收集器的单线程相比，简单高效；

　　　　　　在用户的桌面应用场景中，可用内存一般不大（几十M至一两百M），可以在较短时间内完成垃圾收集（几十MS至一百多MS）,只要不频繁发生，这是可以接受的

　　　　③参数设置

　　　　　　"-XX：+UseSerialGC"：添加该参数来显式使用串行垃圾收集器。

　　Serial收集器对于运行在Client模式下的虚拟机来说是一个很好的选择；

　　3.ParNew 收集器

　　　　ParNew垃圾收集器是Serial收集器的多线程版本。

　　　　①特点

　　　　　　除了多线程外，其余的行为、特点和Serial收集器一样；如Serial收集器可用控制参数、收集算法、Stop The World、内存分配规则、回收策略等；

　　　　ParNew收集器的工作过程：

　　　　②应用场景

　　　　　　在Server模式下，ParNew收集器是一个非常重要的收集器，因为除Serial外，目前只有它能与CMS收集器配合工作；

　　　　　　但在单个CPU环境中，不会比Serail收集器有更好的效果，因为存在线程交互开销。

　　　　 ③参数设置

　　　　　　"-XX:+UseConcMarkSweepGC"：指定使用CMS后，会默认使用ParNew作为新生代收集器；

　　　　 "-XX:+UseParNewGC"：强制指定使用ParNew；

　　　　 "-XX:ParallelGCThreads"：指定垃圾收集的线程数量，ParNew默认开启的收集线程与CPU的数量相同；

　　4.Parallel Scavenge收集器

　　　　Parallel Scavenge垃圾收集器因为与吞吐量关系密切，也称为吞吐量收集器（Throughput Collector）

　　　　①特点

　　　　　　A、它是新生代收集器；使用复制算法；并行的多线程收集器；

　　　　　　B、主要特点是它的关注点与其他收集器不同

　　　　　　　　　　CMS等收集器的关注点是尽可能地缩短垃圾收集时用户线程的停顿时间；

　　　　　　　　　　而Parallel Scavenge收集器的目标则是达一个可控制的吞吐量（Throughput）。

　　　　②应用场景　　　　　　

　　　　　　高吞吐量为目标，即减少垃圾收集时间，让用户代码获得更长的运行时间；

　　　　　　当应用程序运行在具有多个CPU上，对暂停时间没有特别高的要求时，即程序主要在后台进行计算，而不需要与用户进行太多交互；

　　　　　　例如，那些执行批量处理、订单处理、工资支付、科学计算的应用程序。

　　　　③参数设置

　　　　　　Parallel Scavenge收集器提供两个参数用于精确控制吞吐量。

　　　　　　（A）、"-XX:MaxGCPauseMillis"：控制最大垃圾收集停顿时间。

　　　　　　　允许值是大于0的毫秒数，收集器尽肯能保证内存回收的时间不超过预定值。

　　　　　　 MaxGCPauseMillis设置得稍小，停顿时间可能会缩短，但也可能会使得吞吐量下降，GC停顿时间缩短是以牺牲吞吐量和新生代空间换取的；

　　　　　　因为可能导致垃圾收集发生得更频繁；

　　　　　　（B）、"-XX:GCTimeRatio"：设置吞吐量大小。

　　　　　　　　设置垃圾收集时间占总时间的比率，0<n<100的整数。

　　　　　　　　垃圾收集执行时间占应用程序执行时间的比例的计算方法： 1 / (1 + n)

选项-XX:GCTimeRatio=19，设置了垃圾收集时间占总时间的1/(1+19)=5%；默认值是1/(1+99)=1%，即n=99；

　　此外，还有一个值得关注的参数：

　　　　　　（C）、"-XX:+UseAdptiveSizePolicy"

　　　　　　　　开启这个参数后，就不用手工指定一些细节参数。

　　　　　　　　如：新生代的大小（-Xmn）、Eden与Survivor区的比例（-XX:SurvivorRation）、晋升老年代的对象年龄（-XX:PretenureSizeThreshold）等。

JVM会根据当前系统运行情况收集性能监控信息，动态调整这些参数，以提供最合适的停顿时间或最大的吞吐量，这种调节方式称为GC自适应的调节策略（GC Ergonomiscs）。

自适应调节策略也是Parallel Scavenge收集器与ParNew收集器一个重要区别。

　　　一种值得推荐的方式：

　　　　　　(1)、只需设置好内存数据大小（如"-Xmx"设置最大堆）；

　　　　　　(2)、然后使用"-XX:MaxGCPauseMillis"或"-XX:GCTimeRatio"给JVM设置一个优化目标；

　　　　　　(3)、那些具体细节参数的调节就由JVM自适应完成；

吞吐量与收集器关注点说明
　　（A）、吞吐量（Throughput）
　　　　CPU用于运行用户代码的时间与CPU总消耗时间的比值；
　　　　即吞吐量=运行用户代码时间/（运行用户代码时间+垃圾收集时间）；    
　　　　高吞吐量即减少垃圾收集时间，让用户代码获得更长的运行时间；
　　（B）、垃圾收集器期望的目标（关注点）
　　　　（1）、停顿时间    
　　　　　　　　停顿时间越短就适合需要与用户交互的程序；
　　　　　　　　良好的响应速度能提升用户体验。
　　　　（2）、吞吐量
　　　　　　高吞吐量则可以高效率地利用CPU时间，尽快完成运算的任务；
　　　　　　主要适合在后台计算而不需要太多交互的任务。
　　　　（3）、覆盖区（Footprint）
　　　　　　在达到前面两个目标的情况下，尽量减少堆的内存空间；
　　　　　　可以获得更好的空间局部性。

　　5. Serial Old收集器

　　　　Serial Old 是Serial收集器的老年代版本。

　　　　①特点

　　　　　　针对老年代；

　　　　　　单线程收集器；

　　　　　　采用“标记-整理”算法。

　　Serial/Serial Old收集器运行示图：

　　　　②应用场景

　　　　　　主要用于Client模式；

　　　　　　在Server模式下有两大用途：

　　　　　　　　a. 在JDK1.5及之前，与Parallel Scavenge收集器搭配使用（JDK1.6有Parallel Old收集器可搭配）；

　　　　　　　　b.作为CMS收集器的后备预案，在并发收集发生Concurrent Mode Failure时使用。

　　6.Parallel Old 收集器

　　　　Parallel Old 是Parallel Scavenge收集器（并行收集器）的老年代版本。

　　　　①特点

　　　　　　针对老年代；采用“标记-整理”算法；多线程收集器。

　　　　Parallel Old收集器的工作过程：

　　　　②应用场景

　　　　　　 JDK1.6及之后用来代替老年代的Serial Old收集器；在Server模式，多CPU的情况下使用；

　　　　　　在注重吞吐量以及CPU资源敏感的场景，就有了Parallel Scavenge加Parallel Old收集器的"给力"应用组合。

　　　　③参数设置

　　　　　　 "-XX:+UseParallelOldGC"：指定使用Parallel Old收集器。

　　7.CMS收集器

　　　CMS（Concurrent Mark Sweep ）收集器（并发标记清理收集器），是一种以获取最短回收停顿时间为目标的收集器。也称为并发低停顿收集器（Concurrent Low Pause Collector）或低延迟（low-latency）垃圾收集器。

　　　　①特点

　　　　　　针对老年代；

　　　　　　基于“标记-清除”算法（不进行压缩，产生内存碎片）；　　

　　　　　　以获取最短回收停顿时间为目标；

　　　　　　并发收集、低停顿；需要更多内存；

　　　　　　是HotSpot在JDK1.5推出的第一款真正意义上的并发（Concurrent）收集器；　　

　　　　　　第一次实现了让垃圾收集线程与用户线程（基本上）同时工作。

　　　　②应用场景

　　　　　　与用户交互较多的场景；

　　　　　　希望系统停顿时间最短，注重服务的响应速度；

　　　　　　以给用户带来较好的体验；

　　　　　　如常见WEB、B/S系统的服务器上的应用。

　　　　③参数设置

　　　　　　 "-XX:+UseConcMarkSweepGC"：指定使用CMS收集器。

　　　　CMS收集器运行示意图：

　　　　④CMS收集器运行过程，分为4个步骤。

　　　　　　A. 初始标记（CMS initial mark）

　　　　　　　　　　仅标记一下GC Roots能直接关联到的对象；速度很快；但需要"Stop The World"。

　　　　　　B. 并发标记（CMS concurrent mark）

　　　　　　　　进行GC Roots Tracing的过程； 刚才产生的集合中标记出存活对象；

　　　　　　　　应用程序也在运行；并不能保证可以标记出所有的存活对象。

　　　　　　C. 重新标记（CMS remark）

　　　　　　　　　　为了修正并发标记期间因用户程序继续运作而导致标记变动的那一部分对象的标记记录；

　　　　　　　　需要"Stop The World"，且停顿时间比初始标记稍长，但远比并发标记短；

　　　　　　　　采用多线程并行执行来提升效率。

　　　　　　D. 并发清除（CMS concurrent sweep）

　　　　　　　　　　回收所有的垃圾对象。　　　

 整个过程中耗时最长的并发标记和并发清除都可以与用户线程一起工作；所以总体上说，CMS收集器的内存回收过程与用户线程一起并发执行。

　　　　⑤CMS收集器三个缺点。

　　　　　　　　（A）、对CPU资源非常敏感。

　　　　　　　　　　　　并发收集虽然不会暂停用户线程，但因为占用一部分CPU资源，还是会导致应用程序变慢，总吞吐量降低；

　　　　　　　　　　　　CMS的默认收集线程数量是=(CPU数量+3)/4，当CPU数量多于4个，收集线程占用的CPU资源多于25%，对用户程序影响可能较大，不足4个时，影响更大，可能无法接受。

曾出现了"增量式并发收集器"（Incremental Concurrent Mark Sweep/i-CMS）类似使用抢占式来模拟多任务机制的思想，让收集线程和用户线程交替运行，减少收集线程运行时间； 
但效果并不理想，JDK1.6后就官方不再提倡用户使用。

　　　　　　　　（B）、无法处理浮动垃圾,可能出现"Concurrent Mode Failure"失败。

　　　　　　　　　　　　（1）、浮动垃圾（Floating Garbage）

　　　　　　　　　　　　　　　　　　在并发清除时，用户线程新产生的垃圾，称为浮动垃圾；

　　　　　　　　　　　　　　这使得并发清除时需要预留一定的内存空间，不能像其他收集器在老年代几乎填满再进行收集；

　　　　　　　　　　　　　　也要可以认为CMS所需要的空间比其他垃圾收集器大；

　　　　　　　　　　　　　　 "-XX:CMSInitiatingOccupancyFraction"：设置CMS预留内存空间；

　　　　　　　　　　　　　　　　JDK1.5默认值为68%； JDK1.6变为大约92%；

　　　　　　　　　　（2）、"Concurrent Mode Failure"失败

　　　　　　　　　　　　　　Concurrent mode failed的产生是由于CMS回收年老代的速度太慢，导致年老代在CMS完成前就被沾满，引起full gc。

　　　　　　　　　　　　　　避免这个现象的产生就是调小-XX:CMSInitiatingOccupancyFraction参数的值，让CMS更早更频繁的触发，降低年老代被沾满的可能。

　　　　　　　　　　　　　　我们的应用暂时负载比较低，在生产环境上年老代的增长非常缓慢，因此暂时设置此参数为80。在压测环境下，这个参数的表现还可以，没有出现过Concurrent mode failed。

　　　　　　　　（C）、产生大量内存碎片。

　　　　　　　　　　由于CMS基于"标记-清除"算法，清除后不进行压缩操作；产生大量不连续的内存碎片会导致分配大内存对象时，无法找到足够的连续内存，从而需要提前触发另一次Full GC动作。

  解决方法：                
（1）、"-XX:+UseCMSCompactAtFullCollection"
      　　使得CMS出现上面这种情况时不进行Full GC，而开启内存碎片的合并整理过程。
      　　但合并整理过程无法并发，停顿时间会变长。
      　　默认开启（但不会进行，结合下面的CMSFullGCsBeforeCompaction）；
（2）、"-XX:+CMSFullGCsBeforeCompaction"
      　　设置执行多少次Full GC后，来一次压缩整理，为减少合并整理过程的停顿时间。
      　　默认为0，也就是说每次都执行Full GC，不会进行压缩整理。

　　　　8.G1收集器

　　　　G1（Garbage-First）是JDK7-u4才推出商用的收集器，是一款面向服务端应用的垃圾收集器。

　　　　①特点

　　　　　　（A）并行与并发

　　　　　　　　　　能充分利用多CPU、多核环境下的硬件优势；可以并行来缩短"Stop The World"停顿时间；也可以并发让垃圾收集与用户程序同时进行。

　　　　　　（B）分代收集

　　　　　　　　收集范围是新生代和老年代。

　　　　　　　　　　能独立管理整个GC堆（新生代和老年代），而不需要与其他收集器搭配；

　　　　　　　　能够采用不同方式处理不同时期的对象；

　　　　　　　　虽然保留分代概念，但Java堆的内存布局有很大差别，将整个堆划分为多个大小相等的独立区域（Region）；

　　　　　　　　新生代和老年代不再是物理隔离，它们都是一部分Region（不需要连续）的集合。

　　　　　　（C）空间整合

　　　　　　　　结合多种垃圾收集算法，空间整合，不产生碎片。从整体看，是基于标记-整理算法；从局部（两个Region间）看，是基于复制算法。

　　　　　　（D）可预测的停顿

　　　　　　　　低停顿的同时实现高吞吐量，G1除了追求低停顿处，还能建立可预测的停顿时间模型；可以明确指定M毫秒时间片内，垃圾收集消耗的时间不超过N毫秒。

　　　　②应用场景

　　　　　　面向服务端应用，针对具有大内存、多处理器的机器；

　　　　　　最主要的应用是为需要低GC延迟，并具有大堆的应用程序提供解决方案。

如：在堆大小约6GB或更大时，可预测的暂停时间可以低于0.5秒，用来替换掉JDK1.5中的CMS收集器；
在下面的情况时，使用G1可能比CMS好：
  （1）、超过50％的Java堆被活动数据占用；
  （2）、对象分配频率或年代提升频率变化很大；
  （3）、GC停顿时间过长（长于0.5至1秒）。

是否一定采用G1呢？也未必：
   如果现在采用的收集器没有出现问题，不用急着去选择G1；
   如果应用程序追求低停顿，可以尝试选择G1；
   是否代替CMS需要实际场景测试才知道。

　　　　③设置参数

　　　　　　　　"-XX:+UseG1GC"：指定使用G1收集器；

　　　　　　　　"-XX:InitiatingHeapOccupancyPercent"：当整个Java堆的占用率达到参数值时，开始并发标记阶段；默认为45。

　　　　　　　　"-XX:MaxGCPauseMillis"：为G1设置暂停时间目标，默认值为200毫秒。

　　　　　　　　"-XX:G1HeapRegionSize"：设置每个Region大小，范围1MB到32MB；目标是在最小Java堆时可以拥有约2048个Region。

　　　　④为啥G1收集器可以实现可预测的停顿？

　　　　　　G1可以建立可预测的停顿时间模型，是因为：

　　　　　　　　可以有计划地避免在Java堆的进行全区域的垃圾收集；

　　　　　　　　G1跟踪各个Region获得其收集价值大小，在后台维护一个优先列表；

　　　　　　　　每次根据允许的收集时间，优先回收价值最大的Region（名称Garbage-First的由来）；

　　　　　　　　这就保证了在有限的时间内可以获取尽可能高的收集效率。

　　　　⑤一个对象被不同区域引用的问题

　　　　　　一个Region不可能是孤立的，一个Region中的对象可能被其他任意Region中对象引用，判断对象存活时，是否需要扫描整个Java堆才能保证准确？

　　　　　　在其他的分代收集器，也存在这样的问题（只不过G1更突出）。

　　　　　　回收新生代也不得不同时扫描老年代？这样的话会降低Minor GC的效率！

　　　　解决方法：

无论G1还是其他分代收集器，JVM都是使用Remembered Set来避免全局扫描：

　　每个Region都有一个对应的Remembered Set；

　　每次Reference类型数据写操作时，都会产生一个Write Barrier暂时中断操作；

　　然后检查将要写入的引用指向的对象是否和该Reference类型数据在不同的Region（其他收集器：检查老年代对象是否引用了新生代对象）；

　　如果不同，通过CardTable把相关引用信息记录到引用指向对象的所在Region对应的Remembered Set中；

　　当进行垃圾收集时，在GC根节点的枚举范围加入Remembered Set；

　　就可以保证不进行全局扫描，也不会有遗漏

　　　　⑥G1收集器运作过程

　　　　　　不计算维护Remembered Set的操作，可以分为4个步骤（与CMS较为相似）。　　　　

　　　　　　（A）、初始标记（Initial Marking）

　　　　　　　　仅标记一下GC Roots能直接关联到的对象；

　　　　　　　　且修改TAMS（Next Top at Mark Start）,让下一阶段并发运行时，用户程序能在正确可用的Region中创建新对象；

　　　　　　　　需要"Stop The World"，但速度很快；

　　　　　　（B）、并发标记（Concurrent Marking）

　　　　　　　　进行GC Roots Tracing的过程；

　　　　　　　　刚才产生的集合中标记出存活对象；

　　　　　　　　耗时较长，但应用程序也在运行；

　　　　　　　　并不能保证可以标记出所有的存活对象；

　　　　　　（C）、最终标记（Final Marking）

　　　　　　　　为了修正并发标记期间因用户程序继续运作而导致标记变动的那一部分对象的标记记录；

　　　　　　　　上一阶段对象的变化记录在线程的Remembered Set Log；

　　　　　　　　这里把Remembered Set Log合并到Remembered Set中；

　　　　　　　　需要"Stop The World"，且停顿时间比初始标记稍长，但远比并发标记短；

　　　　　　　　采用多线程并行执行来提升效率；

　　　　　　（D）、筛选回收（Live Data Counting and Evacuation）

　　　　　　　　首先排序各个Region的回收价值和成本；

　　　　　　　　然后根据用户期望的GC停顿时间来制定回收计划；

　　　　　　　　最后按计划回收一些价值高的Region中垃圾对象；

　　　　　　　　回收时采用"复制"算法，从一个或多个Region复制存活对象到堆上的另一个空的Region，并且在此过程中压缩和释放内存；

　　　　　　　　可以并发进行，降低停顿时间，并增加吞吐量。

　　　　 G1收集器运行示意图如下：

到这里，我们大体了解HotSpot虚拟机中的所有垃圾收集器。

参考：《深入理解java虚拟机（二）》

posted @ 2019-11-15 15:14 王大军阅读(301) 评论(0) 收藏举报

刷新页面返回顶部