유니코드와 UTF-8

Jerry·2021년 8월 31일

background

목록 보기

1/1

유니코드란 전세계의 모든 언어를 컴퓨터상에서 표현할 수 있도록 글자와 코드를 1:1로 맵핑한 표준 코드 입니다.

표준 체계 정의를 통해 사용자나 환경에 따라 문자가 다르게 표현되는일 없이 일관되게 사용할 수 있습니다.

유니코드 값을 나타내기 위해서는 코드 포인트를 사용합니다. 예를 들어, 'A'의 유니코드 값은 U+0041로 표현합니다.

유니코드는 공식적으로 31비트 문자집합이지만 현재까지는 21비트 이내로 모두 표현 가능합니다.

실제로 유니코드를 컴퓨터에서 사용하기 위해서는 컴퓨터가 이해할 수 있도록 인코딩 하여야 합니다. utf-8은 유니코드를 위한 문자 인코딩 방식 중 하나입니다.

=> ASCII 문자들은 코드포인트 범위 U+0000 ~ U+007F에 맵핑되므로 1바이트로 그대로 표현

[참고][네이버 D2 - 한글 인코딩의 이해 2편: 유니코드와 Java를 이용한 한글 처리](https://d2.naver.com/helloworld/76650)

제리하이웨이