가비지 컬렉션을 정의할 때, 프로세스라고 하기도 하고 기능이라고 하기도 하는 여러 글로 인해 정확한 이해가 어려웠습니다. 깊은 학습을 통해 마무리 단계에서 이해한대로 정의해볼 예정입니다.
이번 학습을 통해 가비지 컬렉션은 어디에서 언제 나타나는 것인지 등에 대한 구체적인 동작 원리를 알아보고자 합니다.
가비지 컬렉션(Garbage Collection, 이하 GC)은 자바의 메모리 관리 방법 중의 하나로, 개발자가 직접 관여하지 않아도 JVM(자바 가상 머신)의 Heap 영역에서 동적으로 할당했던 메모리 중 필요없게 된 메모리 객체(garbage) 를 모아 주기적으로 제거하는 매커니즘 입니다.
Student student = new Student("김자바");
student.goSchool();
// garbage 발생
student = new Student("이코딩");
자동으로 처리해준다 해도 메모리가 언제 해제되는지 정확하게 알 수 없어 제어하기 힘들며, 가비지 컬렉션이 동작하는 동안에는 다른 동작을 멈추기 때문에 오버헤드가 발생되는 문제점이 있습니다.
이것을 전문적인 용어로 Stop-The-World 라고 합니다.
어떤 GC 알고리즘을 사용하더라도 stop-the-world 는 발생하지만,애플리케이션의 사용성을 유지하면서 효율적이게 GC를 실행하는 최적화 작업이 개발자가 해야할 일 입니다.
GC 최적화 작업 = GC 튜닝
그럼 가비지 컬렉션(Garbage Collection)은 스스로 어떤 Object를 Garbage로 판단해서 지워버릴까요?
가비지 컬렉션은 특정 객체가 가비지인지 아닌지 판단하기 위해서 도달성 즉, 도달능력(Reachability)이라는 개념을 적용합니다.
특정 객체가 '도달 가능한' 상태라는 것은 프로그램의 루트 집합(Root Set)에서 출발하여 참조를 따라갔을 때 도달할 수 있는 객체를 의미합니다. 루트 집합에는 지역변수, 활성 스레드, 정적 변수 등이 포함됩니다.
GC는 이러한 루트 집합으로부터 시작하여 참조되는 객체들을 추적해서 있다면 Reachable로 구분되고, 객체에 유효한 레퍼런스가 없다면 Unreachable로 구분해버리고 수거해버립니다.
가비지 컬렉터는 아래 가정에 의해 만들어졌습니다.
Weak Generational 가설
- 대부분의 객체는 금방 접근 불가능 상태(unreachable)가 된다.
- 오래된 객체에서 젊은 객체로의 참조는 아주 적게 존재한다.
즉, 객체는 대부분 일회성이며, 메모리에 오랫동안 남아있는 경우는 드물다는 것 입니다.
이러한 가설의 특성을 이용해 JVM 개발자들은 보다 효율적인 메모리 관리를 위해, HotSpot VM에서는 객체의 생존 기간에 따라 Heap 영역을 크게 2개로 나누었습니다. 둘로 나눈 공간이 Young 영역과 Old 영역입니다.
(현재 Permanent 영역은 Java 8부터 Heap 영역 밖이 되어 포함하지 않습니다.)
그림에서, Old 영역이 Young 영역보다 크게 할당되는 이유는 Young 영역의 수명이 짧은 객체들은 큰 공간을 필요로 하지 않으며 큰 객체들은 Young 영역이 아니라 바로 Old 영역에 할당되기 때문입니다.
Eden:
new를 통해 새로 생성된 객체가 위치하며, 정기적인 쓰레기 수집 후 살아남은 객체들은 Survivor 영역으로 보냅니다.
Survivor 0 / Survivor 1:
최소 1번의 GC 이상 살아남은 객체가 존재하는 영역입니다. Survivor 영역에는 특별한 규칙이 있는데, Survivor 0 또는 Survivor 1 둘 중 하나에는 꼭 비어 있어야 합니다.
Young 영역(Yong Generation 영역):
새롭게 생성한 객체의 대부분이 여기에 위치합니다. 대부분의 객체가 금방 접근 불가능 상태가 되기 때문에 매우 많은 객체가 Young 영역에 생성되었다가 사라집니다. 이 영역에서 객체가 사라질때 Minor GC가 발생한다고 말합니다.
Old 영역(Old Generation 영역):
접근 불가능 상태로 되지 않아 Young 영역에서 살아남은 객체가 여기로 복사됩니다. 대부분 Young 영역보다 크게 할당하며, 크기가 큰 만큼 Young 영역보다 GC는 적게 발생합니다. 이 영역에서 객체가 사라질 때 Major GC(혹은 Full GC)가 발생한다고 말합니다.
예를 들어, Young 영역은 일반적으로 Old 영역보다 크키가 작기 때문에 GC가 보통 0.5초에서 1초 사이에 끝이 납니다.
그렇기 때문에 Minor GC는 애플리케이션에 크게 영향을 주지 않습니다.
하지만, Old 영역의 Major GC는 일반적으로 Minor GC보다 시간이 오래걸리며, 10배 이상의 시간을 사용하게 됩니다.
Major CG가 일어나면 Thread가 멈추고 Mark and Sweep 작업을 해야해서 CPU에 부하를 주기 때문에 멈추거나 버벅이는 현상이 일어날 수 있습니다.
이 때 필요한 것이 가비지 컬렉션 알고리즘입니다.
GC가 어떻게 Reachable과 Unreachable을 판단할 것인지 이해했다면, 이제 GC가 Unreachable한 객체를 어떤 방식으로 청소를 하는지 알아보겠습니다.
Java에서의 가비지 컬렉션(GC)의 원리를 알고 적절히 사용하여 애플리케이션의 성능을 최적화하는 방법을 간단히 알아보았습니다.
학습이 깊어지면서 가비지 컬렉션(GC)은 메소드나 함수처럼 개발자가 직접 호출하는 것이 아니라, 프로그래밍 언어나 실행 환경(가상머신)에 의해 자동으로 실행되는 메커니즘 이라고 정의하기로 했습니다. 개발자는 가비지 컬렉션의 동작 방식을 이해하고 이를 고려하여 코드를 작성할 뿐, 직접적으로 호출하거나 정의하지 않습니다.
Garbage 대상을 식별 -> 식별된 대상을 메모리에서 해제
라고만 생각하면 쉽지만, 많은 최적화 기술과 규칙성이 포함되어있음을 알 수 있었습니다.
HotSpot JVM에서 제공하는 Garbage Collector를 통해 Young Generation과 Old Generation에서 어떤 Algorithm으로 GC를 수행하는지 알아보고 각 Garbage Collector가 취하는 GC 전략에 대해 이해하는 추가 학습을 할 예정입니다.
🔗 https://d2.naver.com/helloworld/1329
🔗 https://www.youtube.com/watch?v=jXF4qbZQnBc&list=WL&index=12
🔗 https://inpa.tistory.com/entry/JAVA-%E2%98%95-가비지-컬렉션GC-동작-원리-알고리즘-💯-총정리#serial_gc
🔗 https://medium.com/@joongwon/jvm-garbage-collection-algorithms-3869b7b0aa6f