데이터의 최소 표현단위 : bit
bit를 8개 묶어서 byte로 표현하고 byte부터는 1000단위로 KB, MB, GB 등으로 표현한다.
word : CPU가 한번에 처리하는 단위이며 현대의 CPU에서는 대부분 32bit 또는 64bit를 채용한다.
데이터를 표현할 때는 보통 2진법을 사요하지만, 너무 길어지는 경우 등에는 16진법을 사용하는 경우도 있다.
우리가 사용하는 문자들을 컴퓨터가 인식할 수 있는 모음으로 한 것이 character set이며 이를 컴퓨터가 이해할 수 있도록 하는 과정을 Encoding, Encoding한 문자열을 사람이 이해할 수 있는 문자열로 바꾸는 과정을 Decoding이라고 한다.
Encoding 방법에는 아래와 같은 방법들이 있다.
- ASCII
아스키 코드는 가장 기본적으로 사용하는 Character set으로 0~127까지의 문자를 표현한다. 숫자를 이용해 간단히 Encoding 할 수 있지만 영문밖에 표현하지 못한다는 단점이 있다.
- EUC-KR
한글의 각 글자별로 16진법을 이용해서 총 2350자의 Character Set을 표현할 수 있는 Encoding 방식이다.
모든 한글을 표현하지 못하며 언어별로 지원하는 EUC 방식으로 일일이 지원해야하는 단점이 있다.
- 유니코드
EUC 방식보다 훨씬 다양한 한글을 포함하며 대부분의 문자, 특수문자, 기호, 이모티콘 등을 표현할 수 있어 현재 가장 많이 사용되는 표준 Character Set이다.
여러 방식의 Encoding이 있으나 가장 많이 사용되는 것은 UTF - 8 방식이며, 1~4 바이트 까지의 Encoding 결과를 만들어낸다.