[Java] Garbage Collector

2023. 1. 6. 17:18기술 창고/Java

728x90
SMALL

개발을 진행하다보면 유효하지 않은 메모리, 말 그대로 쓰레기(Garbage) 메모리가 발생하게 된다.

내가 주로 사용하는 언어인 Java 에서는 JVM의 Garbage Collector가 불필요한 메모리를 알아서 정리해준다고 한다.

 

Minor Garbage Collector / Major Garbage Collector

JVM의 Heap영역은 처음 설계될 때 다음의 2가지를 전제(Weak Generational Hypothesis)로 설계되었다.

  • 대부분의 객체는 금방 접근 불가능한 상태(Unreachable)가 된다.
  • 오래된 객체에서 새로운 객체로의 참조는 아주 적게 존재한다.

 

즉, 객체는 대부분 일회성되며, 메모리에 오랫동안 남아있는 경우는 드물다는 것이다. 그렇기 때문에 객체의 생존 기간에 따라 물리적인 Heap 영역을 나누게 되었고 Young, Old 총 2가지 영역으로 설계되었다.

 

  •  Young 영역(Young Generation)
    • 새롭게 생성된 객체가 할당(Allocation)되는 영역
    • 대부분의 객체가 금방 Unreachable 상태가 되기 때문에, 많은 객체가 Young 영역에 생성되었다가 사라진다.
    • Young 영역에 대한 가비지 컬렉션(Garbage Collection)을 Minor GC라고 부른다.
  • Old 영역(Old Generation)
    • Young영역에서 Reachable 상태를 유지하여 살아남은 객체가 복사되는 영역
    • Young 영역보다 크게 할당되며, 영역의 크기가 큰 만큼 가비지는 적게 발생한다.
    • Old 영역에 대한 가비지 컬렉션(Garbage Collection)을 Major GC 또는 Full GC라고 부른다.

 


 

Garbage Collector 동작원리

공통 동작 방식

세부동작 방식은 영역별, 적용 알고리즘별로 다르지만 공통적으로 따르는 2단계는 다음과 같다.

 

  1. Stop the world
  2. Mark and Sweep

 

1. Stop the world

JVM이 GC를 실행하기 위해서 애플리케이션의 실행을 멈추는 작업이다. 이때는 GC를 실행하는 쓰레드 외 다른 모든 쓰레드는 작업이 중단된다. 애플리케이션 중단 시간 최소화를 위해서 이 stop the world 작업의 소요시간을 줄이기 위해 다양한 알고리즘을 적용한다.

 

2. Mark and Sweep

Stop the world 이후, GC가 스택의 모든 변수 또는 접근 가능한 Reachable 객체를 스캔한다. 사용되지 않는 메모리를 식별하는 과정이 Mark, 이 메모리들을 제거하는 과정을 Sweep 이라고 한다.

 

 

Minor Garbage Collector 동작

 Young Generation 영역은 EdenSurvivor 영역으로 나뉜다.

  • Eden 영역 : 새로 생성된 객체가 할당되는 영역
  • Survivor 영역 : 최소 1번의 이상의 GC 이후 남은 객체가 존재하는 영역

이 영역들이 Minor GC의 구성요소가 되며, 동작원리는 다음과 같다.

 

  1. 인스턴스가 계속 생성되어 Eden 영역이 포화된다.
  2. Stop the world -> Mark and Sweep 실행
  3. 2.에서 살아남은 객체가 첫 Survivor 영역으로 이동
  4. 첫 Survivor 영역 포화 -> Mark and Sweep으로 살아남은 객체가 두번째 Survivor 영역으로 이동
  5. 일정 횟수(age) 이상 살아남은 객체를 Old Generation 영역으로 이동(이것을 Promotion 이라고 한다.)

 

Major Garbage Collector 동작

Young Generation 영역에서 Promotion으로 넘어온 인스턴스들에 의해서 Old Generation 영역의 메모리가 부족해지면 Major GC가 발생한다.

그런데 크기가 작은 Young Generation에서의 Minor GC에 비해 Major GC는 10배 이상의 시간이 소모될 수 있다.

 


 

GarbageCollector 알고리즘

[ Serial GC ]

Serial GC는 서버의 CPU 코어가 1개일 때 사용하기 위해 개발되었으며, 모든 가비지 컬렉션 일을 처리하기 위해 1개의 쓰레드만을 이용한다.

그렇기 때문에 CPU의 코어가 여러 개인 운영 서버에서 Serial GC를 사용하는 것은 반드시 피해야 한다.

 

 

 

[ Parallel GC ]

Parallel GC는 Throughput GC로도 알려져 있으며, 기본적인 처리 과정은 Serial GC와 동일하다. 하지만 Parallel GC는 여러 개의 쓰레드를 통해 Parallel하게 GC를 수행함으로써 GC의 오버헤드를 상당히 줄여준다. Parallel GC는 멀티 프로세서 또는 멀티 쓰레드 머신에서 중간 규모부터 대규모의 데이터를 처리하는 애플리케이션을 위해 고안되었으며, 옵션을 통해 애플리케이션의 최대 지연 시간 또는 GC를 수행할 쓰레드의 갯수 등을 설정해줄 수 있다.

java -XX:+UseParallelGC -jar Application.java

// 사용할 쓰레드의 갯수
-XX:ParallelGCThreads=<N>

// 최대 지연 시간
-XX:MaxGCPauseMillis=<N>

Parallel GC가 GC의 오버헤드를 상당히 줄여주었고, Java8까지 기본 가비지 컬렉터(Default Garbage Collector)로 사용되었다. 그럼에도 불구하고 Application이 멈추는 것은 피할 수 없었고, 이러한 부분을 개선하기 위해 다른 알고리즘이 더 등장하게 되었다.

 

 

 

[ Parallel Old GC ]

Parallel Old GC는 JDK5 update6부터 제공한 GC이며, 앞서 설명한 Parallel GC와 Old 영역의 GC 알고리즘만 다르다. Parallel Old GC에서는 Mark Sweep Compact가 아닌 Mark Summary Compaction이 사용되는데, Summary 단계에서는 앞서 GC를 수행한 영역에 대해서 별도로 살아있는 객체를 색별한다는 점에서 다르며 조금 더 복잡하다.

 

 

 

[ CMS(Concurrent Mark Sweep) GC ]

CMS(Concurrent Mark Sweep) GC는 Parallel GC와 마찬가지로 여러 개의 쓰레드를 이용한다. 하지만 기존의 Serial GC나 Parallel GC와는 다르게 Mark Sweep 알고리즘을 Concurrent하게 수행하게 된다.

이러한 CMS GC는 애플리케이션의 지연 시간을 최소화 하기 위해 고안되었으며, 애플리케이션이 구동중일 때 프로세서의 자원을 공유하여 이용가능해야 한다. CMS GC가 수행될 때에는 자원이 GC를 위해서도 사용되므로 응답이 느려질 순 있지만 응답이 멈추지는 않게 된다.

하지만 이러한 CMS GC는 다른 GC 방식보다 메모리와 CPU를 더 많이 필요로 하며, Compaction 단계를 수행하지 않는다는 단점이 있다. 이 때문에 시스템이 장기적으로 운영되다가 조각난 메모리들이 많아 Compaction 단계가 수행되면 오히려 Stop The World 시간이 길어지는 문제가 발생할 수 있다.

 

 

 

[ G1(Garbage First) GC ]

G1(Garbage First) GC는 장기적으로 많은 문제를 일으킬 수 있는 CMS GC를 대체하기 위해 개발되었고, Java7부터 지원되기 시작하였다.

기존의 GC 알고리즘에서는 Heap 영역을 물리적으로 Young 영역(Eden 영역과 2개의 Survivor 영역)과 Old 영역으로 나누어 사용하였다. G1 GC는 Eden 영역에 할당하고, Survivor로 카피하는 등의 과정을 사용하지만 물리적으로 메모리 공간을 나누지 않는다. 대신 Region(지역)이라는 개념을 새로 도입하여 Heap을 균등하게 여러 개의 지역으로 나누고, 각 지역을 역할과 함께 논리적으로 구분하여(Eden 지역인지, Survivor 지역인지, Old 지역인지) 객체를 할당한다.

G1 GC에서는 Eden, Survivor, Old 역할에 더해 Humongous와 Availabe/Unused라는 2가지 역할을 추가하였다. Humonguous는 Region 크기의 50%를 초과하는 객체를 저장하는 Region을 의미하며, Availabe/Unused는 사용되지 않은 Region을 의미한다. 

G1 GC의 핵심은 Heap을 동일한 크기의 Region으로 나누고, 가비지가 많은 Region에 대해 우선적으로 GC를 수행하는 것이다. 그리고 G1 GC도 다른 가비지 컬렉션과 마찬가지로 2가지 GC(Minor GC, Major GC)로 나누어 수행되는데, 각각에 대해 살펴보도록 하자.

 

728x90
반응형
LIST