Garbage Collection

Panda·2023년 3월 7일
0

Java

목록 보기
4/7

Garbage Collection 란?

JVM의 Heap 영역에서 동적으로 할당한 메모리 영역중에 필요없어진 메모리 영역을 삭제하는 것이 Garbage Collection 입니다.
C언어 할때는 매번 free()함수로 직접 해제를 하였는데
자바에서는 Garbage Collection이 알아서 메모리 관리를 하게 됩니다.
실제로 저는 자바하면서 메모리를 신경쓰면서 개발한적이 거의 없었네요 ㅎㅎ

앞으로는 이 Garbage Collection을 GC라고 부르겠습니다.

GC의 종류

  • Minor GC
  • Major GC

GC의 종류를 알아보기전에 먼저 Heap영역에 대한 이해가 필요하니 Heap영역부터 알아보도록 하겠습니다.

Heap 영역

JVM의 Heap영역은 처음 설계될 때 다음의 2가지를 전제로 설계되었다고 합니다.

  • 대부분의 객체는 금방 접근 불가능한 상태가 된다.
  • 오래된 객체에서 새로운 객체로의 참조는 아주 적게 존재한다.

객체의 생존기간에 따라서 Heap영역을 나누게 되었고 Young, Old 2가지 영역으로 설계되었습니다.

Young 영역

  • 새롭게 생성된 객체가 할당(Allocation)되는 영역
  • 대부분의 객체가 금방 접근 불가 상태가 되기 때문에, 많은 객체가 Young 영역에 생성되었다가 사라집니다.
  • Young 영역에 대한 GC를 Minor GC라고 부릅니다.

Young 영역에서도 또한번 영역이 나뉘게 되는데 총 3개의 영역으로 나뉘게 됩니다.

  • Eden 영역
  • Survivor 영역(2개)

객체의 생존기간에 따른 영역 이동

  1. 새로 생성한 대부분의 객체는 Eden 영역에 할당
  2. Eden 영역에서 GC가 한 번 발생한 후 살아남은 객체는 Survivor 영역 중 하나로 이동
  3. Eden 영역에서 GC가 발생하면 이미 살아남은 객체가 존재하는 Survivor 영역으로 객체가 계속 쌓인다.
  4. 하나의 Survivor 영역이 가득 차게 되면 그 중에서 살아남은 객체를 다른 Survivor 영역으로 이동한다. 그리고 가득 찬 Survivor 영역은 아무 데이터도 없는 상태로 된다.
  5. 이 과정을 반복하다가 계속해서 살아남아 있는 객체는 Old 영역으로 이동하게 된다.

위에 방식을 따르게 되면 Survivor 영역 중 하나는 반드시 비어 있는 상태로 남아 있어야 합니다.
만약 두 Survivor 영역에 모두 데이터가 존재하거나, 두 영역 모두 사용량이 0이라면 여러분의 시스템은 정상적인 상황이 아닙니다.

Old 영역

  • Young영역에서 접근 가능한 상태로 유지하여 살아남은 객체가 복사되는 영역
  • Young 영역보다 크게 할당되며, 영역의 크기가 큰 만큼 가비지는 적게 발생한다.
  • Old 영역에 대한 GC를 Major GC 또는 Full GC라고 부른다.
  • Old 영역은 기본적으로 데이터가 가득 차면 GC를 실행한다.

Major GC는 객체들이 Old 영역에 계속 쌓여 메모리가 부족해지면 발생하게 됩니다. Major GC는 Old 영역이 Young 영역보다 공간이 크고 Young 영역도 참조하는 경우가 존재하기 때문에 일반적으로 Minor GC보다 시간이 오래걸리며, 10배 이상의 시간을 사용합니다.

보통은 Young -> Old 로 참조하지만 가끔씩 Old -> Young 로 참조하는 경우가 있습니다.

이러한 경우를 대비하여 Old 영역에는 512 bytes의 덩어리(Chunk)로 되어 있는 카드 테이블이 존재합니다.
카드 테이블에는 Old 영역에 있는 객체가 Young 영역의 객체를 참조할 때 마다 그에 대한 정보가 표시됩니다. Young 영역의 GC를 실행할 때에는 Old 영역에 있는 모든 객체의 참조를 확인하지 않고, 이 카드 테이블만 뒤져서 GC 대상인지 식별합니다.

동작 방식

Stop The World

Stop The World는 GC를 실행하기 위해 JVM이 프로그램의 실행을 멈추는 작업입니다.(멈춰!) GC가 실행될 때는 GC를 실행하는 쓰레드를 제외한 모든 쓰레드들의 작업이 중단되고, GC가 완료되야지 작업이 재개됩니다. GC의 성능 개선을 위해 튜닝을 한다고 하면 보통 stop-the-world의 시간을 줄이는 작업을 하게 됩니다. 또한 JVM에서도 이러한 문제를 해결하기 위해 다양한 실행 옵션을 제공하고 있습니다.

Stop the World를 외울때는 단 하나만 기억해봅시다. The World!!!!!!!

Mark And Sweep

  • Mark : 사용되는 메모리와 사용되지 않는 메모리를 식별하는 작업
  • Sweep : Mark 단계에서 사용되지 않음으로 식별된 메모리를 해제하는 작업

Stop The World 이후
GC는 스택의 모든 변수 또는 접근 가능한 객체를 스캔하면서 각각이 어떤 객체를 참고하고 있는지를 탐색하게 됩니다.
그리고 사용되고 있는 메모리를 식별하는데, 이러한 과정을 Mark라고 하고 이후에 Mark가 되지 않은 객체들을 메모리에서 제거하는데, 이러한 과정을 Sweep라고 합니다.

단점

  • 개발자가 메모리가 언제 해제되는지 정확하게 알 수 없다.
  • 가비지 컬렉션(GC)이 동작하는 동안에는 다른 동작을 멈추기 때문에 오버헤드가 발생한다.

2번째 이유가 치명적으로 다가올 수도있는데 GC가 자주 발생하게 되면 그만큼 성능저하가 일어나게 됩니다.
일반적인 개발은 크게 상관은 없지만 조금이라도 일시정지로 인해 결과가 달라지는 소프트웨어 개발을 하게 된다면 GC를 안쓰는 언어를 하는게 좋을 것 같습니다.

TMI : 이래서 게임개발쪽에서 GC를 사용하는 C#보다는(유니티) C++을 선호해서 언리얼 엔진으로 개발하는걸지도?

느낀 점

GC 하는일만 들었을 때는 간단할 줄 알았는데
그 동작과정들이 너무나도 복잡해서 딥한 내용들은 이해하기가 힘드네요 ㅠㅠㅠ

그래도 성능 최적화를 하려면 꼭 필수적인 내용이 아닐까 싶습니다.
GC의 내용을 잘이해한다면 [편리함 vs 성능 최적화] 이 두마리의 토끼를 잘잡을수 있을 것 같네요

profile
실력있는 개발자가 되보자!

0개의 댓글