앞에서 프로세스를 다루면서, 우리는 프로세스에 대해 운영체제가 자원을 할당하는 단위 라고 언급했었다.
프로세스가 메모리를 할당 받으면, 자신만의 방법으로 메모리를 관리하기 위해 이 공간들을 어떤 구조로 관리하는데, 우리는 이를 프로세스 주소 공간이라고 부른다.
결국 메모리는 한정되어 있기 때문에, 프로세스는 다양한 방법으로 메모리를 절약하려고 시도한다. 자세한 것은 뒤에서 알아보기로 하고, 우선 프로세스 주소 공간에 대해 알아보자.
프로세스의 주소 공간은 대략적으로 다음과 같이 생겼으며, 각각의 구역을 살펴보면 다음과 같다.
글 초반부에서, 다음과 같은 말을 했었다.
결국 메모리는 한정되어 있기 때문에, 프로세스는 다양한 방법으로 메모리를 절약하려고 시도한다.
그렇다면 어떤 방식으로 최적화를 할까? 그리고 최적화 이외의 토픽들은 없을까? 한 번 알아보자.
Code 영역은 기계어 코드가 들어있으니 다른 구역과 너무 다르고, Heap 영역은 런타임에 크기가 결정되는 영역이다.
그렇다면 Stack 영역과 Data 영역을 구분한 이유는 무엇일까? 가장 큰 이유는 역할의 분배이다. 우리는 Stack 영역을 통해 함수의 흐름을 관리하고, Data 영역 (+BSS 영역)을 통해 전역 변수, static 변수를 관리한다.
조금 뒤에서 자세히 설명하겠지만, 만약 한 프로세스가 여러개의 스레드를 갖는다면, 각각의 스레드는 자신만의 Stack 영역을 갖는다. 이는 스레드 내에서 수행되는 함수의 흐름을 각각 관리하기 위함이다.
여기에서 영역을 구분한 또 다른 중요한 이유가 나오는데, 바로 Data 영역의 공유이다. 각각의 스레드는 Stack 영역을 갖긴 하지만 Data 영역은 공유한다. 즉, 각각의 스레드가 사용하기 위해 Data 영역의 동일한 내용을 공유함으로써, 똑같은 공간을 여러개 만들지 않고 메모리를 절약할 수 있다. (이는 Code 영역에서도 마찬가지다!)
우리가 자바 코드를 작성하고, 이 코드를 실행할 때, 다음과 같은 명령어를 쳐 본 경험이 있을 것이다.
java -Xmx4096m test
이 명령어는 test 라는 이름을 갖는 프로그램을 JVM 상에서 실행하되, 최대 힙 크기를 4096M (= 4G) 할당하라는 의미이다.
추가로, UNIX 계열 운영체제의 경우 다음과 같은 명령어를 통해 Stack 영역의 최대 크기를 확인할 수 있다.
ulimit -s
이 명령어를 이용하면 Stack 영역의 최대 크기를 수정할 수도 있지만, 현재 최대 크기도 확인할 수 있는데, 딱 8MB라고 나올 것이다.
어? Stack 영역과 Heap 영역은 같은 공간을 공유하는게 아니었나? 왜 필요한 크기가 다를까?
위 그림은 Java에서의 Stack 영역과 Heap 영역을 나타낸다. 잘 살펴보면, Stack 영역에 등장하는 각각의 변수들은 Heap 영역에 위치한 실제 Object의 참조를 갖고 있는 것을 볼 수 있다. 즉, 실제 객체는 Heap 영역에서 관리되기 때문에 Stack 영역의 크기는 생각보다 클 필요가 없다는 것을 알 수 있다.
클 필요가 없다는 것은 알았는데, 그렇다면 정말 두 영역은 서로 같은 공간을 공유하는게 아닌건가?
사실, Stack 영역은 생성과 동시에 크기가 정해진다. 즉, 크기가 한 번 정해지면 바뀌지 않기 때문에, Heap 영역과 상관 없이 크기의 제한을 갖는다. 즉, 우리가 자주 볼 수 있는 Stack Overflow 같은 문제는, 힙 영역을 침범해서가 아니라 정해진 Stack 영역의 크기를 초과해서 발생한 문제라고 볼 수 있다.
프로세스가 자원을 할당 받지만, 스레드도 자신만의 자원을 갖고 있어야 한다. 따라서, 스레드도 자신만의 주소 공간을 갖고 있다.
하지만, 약간의 차이가 있다.
다음 그림과 같이, 실제로 각 스레드가 갖고 있는 것은 Stack 영역 밖에 없다! 즉, 나머지 공간은 프로세스의 값을 함께 쓰고 있고, 즉 다른 스레드와 공유한다고 볼 수 있다.
이 때문에, Data 영역에 있는 자원은 동시에 여러 스레드가 접근할 수 있고, 여기서 발생하는 문제를 해결하기 위해 뒤에서 동기화에 대해 배울 예정이다.