문자 인코딩, 유니코드, UTF-8 알아보기

iris·2024년 3월 5일

utf 8 유니코드 인코딩

문자 인코딩

컴퓨터는 2진법으로 작동하는 구조로써 본래 0과 1 두가지 숫자로만 동작을 할수 있다.
사람이 0과 1로 구성된 코드를 읽고 해석함에 있어서 곤란하기 때문에 각 사용하는 문자나 기호들을 컴퓨터가 이용할 수 있도록 신호를 만드는 것을 문자 인코딩이라고 한다.

유니코드

초창기 ASCII 코드는 미국의 알파벳과 숫자만 포함했기 때문에 다른 언어 등을 포함할수 없었음.
이로 인해서 다양한 문자열이 생겨나고 서로 다른 인코딩 방식을 사용하여 글자가 깨지는 문제가 발생하게 됨.
모든 문자들을 하나의 표에 다 포함 시켜 만든 코드임.

UTF-8

유니코드라는 문자열셋의 인코딩 방식으로는 UCS-2, UCS-4, UTF-32, UTF-16 그리고 UTF-8 등 여럿이 있음.
적절한 바이트 수를 차지하도록 해서 다른 방식들보다 일반적으로 적은 용량만 쓰면서도 호환 문제도 가장 덜 발생하는 UTF-8이 전세계적으로 가장 널리 사용됨.

이전 포스트

2024.03.04 IDE IntelliJ

다음 포스트

2024.03.05 JAVA

0개의 댓글