문자 인코딩
- 컴퓨터는 2진법으로 작동하는 구조로써 본래 0과 1 두가지 숫자로만 동작을 할수 있다.
- 사람이 0과 1로 구성된 코드를 읽고 해석함에 있어서 곤란하기 때문에 각 사용하는 문자나 기호들을 컴퓨터가 이용할 수 있도록 신호를 만드는 것을 문자 인코딩이라고 한다.
유니코드
- 초창기 ASCII 코드는 미국의 알파벳과 숫자만 포함했기 때문에 다른 언어 등을 포함할수 없었음.
- 이로 인해서 다양한 문자열이 생겨나고 서로 다른 인코딩 방식을 사용하여 글자가 깨지는 문제가 발생하게 됨.
- 모든 문자들을 하나의 표에 다 포함 시켜 만든 코드임.
UTF-8
- 유니코드라는 문자열셋의 인코딩 방식으로는 UCS-2, UCS-4, UTF-32, UTF-16 그리고 UTF-8 등 여럿이 있음.
- 적절한 바이트 수를 차지하도록 해서 다른 방식들보다 일반적으로 적은 용량만 쓰면서도 호환 문제도 가장 덜 발생하는 UTF-8이 전세계적으로 가장 널리 사용됨.