문자 인코딩, 유니코드, UTF-8이 뭔가요?

KIM YONG GU·2023년 8월 31일

얄팍한코딩사전

목록 보기
4/23

문자 인코딩(Encoding)

컴퓨터는 바이너리(0, 1)의 언어를 가진다.
이 때 각 언어에 해당하는 문자열 Set을 만든다. (위키에 문자열 세트 테이블이 있다)
사람의 문자를 컴퓨터가 알아들을 수 있도록 기계어로 바꿔주는 것을 문자 인코딩이라고 한다.

아스키 코드 및 UTF-8

아스키 ASCII 코드는 미국에서 사용되는 알파벳과 숫자만 들어있다.
문자열 셋과 인코딩이 일치해야 정상적으로 문자가 출력된다.

각 국가의 언어를 통합해서 패키지화 한 것이 바로. Unicode (Uni - 하나 된)
이를 인코딩 하는 것이 UTF-8이다.

Unicode는 문자열 세트, UTF-8은 문자 인코딩 방식 중 하나이다.
이 외에도 UCS-2, UCS-4, UTF-32, UTF-16, UTF-8 가 있지만...

문자마다 적절한 바이트 수를 차지하도록 해서 다른 방식들보다 용량을 덜 쓰면서
호환 문제가 가장 덜 발생하는 것이 UTF-8이다.

인코딩 <-> 디코딩

URL Encoding이란?

URL은 아스키 코드의 문자 집합으로만 표현할 수 있으므로 그 외의 언어들을
약속된 아스키 코드로 바꿔 주는 것이 URL Encoding이다.

profile
Engineer, Look Beyond the Code.

0개의 댓글