문자인코딩,유니코드,UTF-8

Gunju Kim·2025년 3월 19일

필수시청 영상

목록 보기

2/32

문자 인코딩(Character Encoding)은 컴퓨터가 문자를 이해하고 저장할 수 있도록 문자를 이진 데이터(0과 1)로 변환하는 방식을 뜻합니다.

쉽게 말해,

위와 같이 문자타입은 컴퓨터가 볼수 있는 이진수로 해석해야 된다.

유니코드는 세계 모든 언어의 문자를 하나의 공통된 문자집합으로 표현하기 위한 국제 표준입니다.

예시)

유니코드는 그 자체로 인코딩 방식이 아니라, 문자에 번호를 부여하는 일종의 표준 체계입니다.

UTF-8(Unicode Transformation Format - 8 bit)은 유니코드를 실제로 컴퓨터가 저장하고 처리하기 위한 인코딩 방식 중 하나입니다.

특징)

왜 UTF-8을 가장 많이 사용하나요?

UTF-8은 ASCII 문자(영어 알파벳, 숫자 등)를 그대로 1바이트로 표현하므로 기존 시스템과 호환성이 뛰어나며, 다양한 언어와 특수문자까지 효율적으로 저장하고 처리할 수 있기 때문입니다.

유니코드가 UTF-8 말고도 다른 형태가 있나요?

네, 대표적으로 UTF-16과 UTF-32가 존재합니다.
- UTF-16: 최소 2바이트로 저장, 문자에 따라 2~4바이트 사용 (Windows 내부 문자열 등)
- UTF-32: 모든 문자를 무조건 4바이트로 표현 (거의 사용 안 함, 낭비 큼)

하지만 웹 및 소프트웨어 개발 환경에서는 UTF-8이 사실상 표준입니다.

결론:
문자 인코딩은 문자를 이진 데이터로 변환하는 규칙이며, 유니코드는 전 세계 모든 문자를 하나의 번호로 표준화한 체계, UTF-8은 유니코드를 실제 데이터로 저장하는 가장 널리 쓰이는 인코딩 방식입니다.

처음이라서 그래 가본적 없던 길에