오늘은 컴퓨터 공학 기초 파트를 학습하며 문자열, 그래픽, 운영체제 등 컴퓨터가 어떤 방식으로 작동하는 지를 학습하였다.
유니코드
유니코드(Unicode)는 유니코드 협회(Unicode Consortium)가 제정하는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준이다. 이 표준에는 ISO 10646 문자 집합, 문자 인코딩, 문자 정보 데이터베이스, 문자를 다루기 위한 알고리즘 등을 포함하고 있다.
ASCII
영문 알파벳을 사용하는 대표적인 문자 인코딩으로 7 비트로 모든 영어 알파벳을 표현할 수 있으며, 52개의 영문 알파벳 대소문자와, 10개의 숫자, 32개의 특수 문자, 그리고 하나의 공백 문자를 포함한다.
UTF-8과 UTF-16
UTF-8과 UTF-16은 인코딩 방식의 차이를 의미하며, UTF-8은 Universal Coded Character Set + Transformation Format – 8-bit의 약자로, UTF- 뒤에 등장하는 숫자는 비트(bit)이다.
UTF-8
UTF-8은 유니코드 한 문자를 나타내기 위해 1 byte(= 8 bits) 에서 4 bytes까지 사용한다.
예를 들어, 코 라는 문자의 유니코드는 U+CF54 (16진수, HEX)로 표현되는데, 이 문자를 이진법(binary number)으로 표시하면, 1100-1111-0101-0100
이 되고, 이 문자를 UTF-8로 표현하면, 다음과 같이 3byte 의 결과로 표현된다.
1110xxxx 10xxxxxx 10xxxxxx # x 안에 순서대로 값을 채워넣는다. 11101100 10111101 10010100
ASCII 코드는 7비트로 표현되고, UTF-8 에서는 다음과 같이 1 byte의 결과로 만들 수 있습니다. 다음 예제는 b 라는 문자를 UTF-8로 인코딩한 결과이다.
0xxxxxxx 01100010
이처럼, UTF-8은 1 byte에서 4 bytes까지의 가변 길이를 가지는 인코딩 방식으로, 네트워크를 통해 전송되는 텍스트는 주로 UTF-8로 인코딩되는데, 사용된 문자에 따라 더 작은 크기의 문자열을 표현할 수 있기 때문이다. UTF-8은 ASCII 코드의 경우 1 byte, 크게 영어 외 글자는 2byte, 3byte, 보조 글자는 4byte를 차지하고, 이모지는 보조 글자에 해당하기 때문에 4byte가 필요하다. 또한 UTF-16에 비해 바이트 순서를 따지지 않고, 순서가 정해져 있다.
UTF-16
UTF-16은 유니코드 코드 대부분(U+0000부터 U+FFFF; BMP) 을 16 bits로 표현한다.
대부분에 속하지 않는 기타문자는 32 bit(4 bytes)로 표현하므로 UTF-16도 가변 길이라고 할 수 있으나, 대부분은 2 바이트로 표현한다.
U+ABCD라는 16진수를 있는 그대로 이진법으로 변환하면 1010-1011-1100-1101
인데, 이 이진법으로 표현된 문자를 16 bits(2 bytes)로 그대로 사용하며, 바이트 순서(엔디언)에 따라 UTF-16의 종류도 달라진다.
UTF-8에서는 한글은 3 바이트, UTF-16에서는 2 바이트를 차지한다.
비트맵(래스터) | 벡터 | |
---|---|---|
기반 기술 | 픽셀 기반 | 수학적으로 계산된 Shape 기반 |
특징 | 사진과 같이 색상의 조합이 다양한 이미지에 적합 | 로고, 일러스트와 같이 제품에 적용되는 이미지에 적합 |
확대 | 확대에 적합하지 않음, 보다 큰 사이즈의 이미지가 필요할 때 사용하려는 크기 이상으로 생성하거나 스캔해야 함 | 품질 저하없이 모든 크기로 확대 가능하며, 해상도의 영향을 받지 않음 |
크기(dimension)에 따른 파일 용량(file size) | 큰 크기의 이미지는, 큰 파일 사이즈를 가짐 | 큰 크기의 벡터 그래픽은 작은 파일 사이즈를 유지할 수 있음 |
상호 변환 | 이미지의 복잡도에 따라 벡터로 변환하는 것에 오랜 시간이 걸림 | 쉽게 래스터 이미지로 변환 가능 |
대표적인 파일 포맷 | jpg, gif, png, bmp, psd | svg, ai |
웹에서의 사용성 | jpg, gif, png 등이 널리 쓰임 | svg 포맷은 현대의 브라우저에서 대부분 지원 |
시스템 자원 관리
운영체제가 없다면, 응용 프로그램이 실행될 수 없다. 응용 프로그램은 컴퓨터를 이용해 다양한 작업을 하는 것이 목적인고, 운영체제는 응용 프로그램이 하드웨어에게 일을 시킬 수 있도록 도와준다. 하드웨어를 구성하는 일을 하는 CPU, 자료를 저장하는 RAM, 디스크 등의 시스템 자원을 관리하는 주체가 바로 운영체제이다.
응용 프로그램 관리
모든 응용 프로그램이 시스템의 자원을 마음대로 사용한다면, 해커에 의한 공격에 무방비한 상태가 되기 때문에, 응용 프로그램은 권한에 대한 관리가 필요하며, 또한 여러 사람이 하나의 기기를 사용하는 경우에는 사용자를 관리하는 일도 매우 중요하다.
시스템 콜
응용 프로그램이 운영체제를 통해 컴퓨터에게 일을 시키려면, 컴퓨터를 조작할 수 있는 권한을 운영체제로부터 부여받아야 힌다. 권한을 부여받고 난 후에는, 운영체제가 제공하는 기능을 이용할 수 있으며, 응용 프로그램이 운영체제와 소통하기 위해서는, 운영체제가 응용 프로그램을 위해 인터페이스(API)를 제공해야 한다. 응용 프로그램이 시스템 자원을 사용할 수 있도록, 운영체제 차원에서 다양한 함수를 제공하는 것을 시스템 콜(System call)이라고 부른다.
프로세스
운영체제에서는 실행 중인 하나의 애플리케이션을 프로세스라고 부르며, 사용자가 애플리케이션을 실행하면, 운영체제로부터 실행에 필요한 메모리를 할당 받아 애플리케이션의 코드를 실행한다. 이때 실행되는 애플리케이션을 프로세스라고 부르며, 하나의 애플리케이션은 여러 프로세스(다중 프로세스)를 만들기도 한다.
스레드
스레드는 사전적 의미로 한 가닥의 실이라는 뜻으로, 한 가지 작업을 실행하기 위해 순차적으로 실행한 코드를 실처럼 이어 놓았다고 해서 유래된 이름이다. 하나의 스레드는 코드가 실행되는 하나의 흐름이기 때문에, 한 프로세스 내에 스레드가 두 개라면 코드가 실행되는 흐름이 두 개 생긴다는 의미이다.
멀티 스레드
멀티 태스킹을 하기 위해서 하나의 프로세스 내에 멀티 스레드를 가질 수 있는데, 대용량 데이터의 처리시간을 줄이기 위해 데이터를 분할하여 병렬로 처리하는 데에 사용할 수도 있고, UI를 가지고 있는 애플리케이션에서 네트워크 통신을 하기 위해 사용할 수도 있으며, 여러 클라이언트의 요청을 처리하는 서버를 개발할 때에도 사용된다.
그동안 코딩 관련 챕터만 학습하다가 컴퓨터가 작동하는 원리와 관련된 개념적인 부분을 학습하니 새로운 느낌이였다. 개발자(특히, 백엔드 포지션)라면 컴퓨터 공학에 대한 부분에 대한 이해도 중요할 것이라고 생각한다. 코스에 있는 내용외에도 궁금했던 부분은 더 찾아보면서 공부할 예정이다.