인코딩

허정·2022년 7월 16일
0

컴퓨터 문자의 시작은 영어권입니다. 우선 ASCII 코드는 7 bit, 유니코드는 16 bit 체계입니다. 이것을 염두에 두고 인코딩에 대해 알아봅시다.

1. ASCII 코드

  • 이름 그대로 American Standard Code 입니다.
  • 위에서 말했듯이, 알파벳을 나타내기 위한 문자 코드입니다.
  • 2 7 ( = 128 ) 으로 모든 알파벳 문자를 나타낼 수 있기 때문에, 7 bit 체계로 사용하기에 충분합니다.

2. 유니코드

(1) 배경

  • 한자권으로 넘어오면서, 한글과 한자를 위한 코드가 필요했습니다.
  • 한자는 대략 10만 자 이상으로 알려져있습니다.
  • 이 중에서 사용하는 한자는 6만개로 알려져 있습니다.
  • 그래서 유니코드는 2 16 ( = 65536 ), 16 bit 체계로 되어있습니다.
  • unicode.org 에서 확인할 수 있습니다. 각 문자는 16진수로 쓰여있습니다.

(2) 예시

  • "감"이라는 글자를 예시로 들어보겠습니다.
  • 각 자리는 16진수입니다.
  • 16진수는 2 4 입니다.
  • 즉 "감"이라는 글자는 2 16 으로 되어있습니다.
  • 따라서 한 글자는 16 bit로 나타낼 수 있습니다.

3. UTF-8

웹에서는 결국 html을 브라우저가 보여주는 것이고, DB에 문자가 저장되고 있습니다. 그래서 앞서 말한 혼란스러운 상황을 정리하고자 UTF-8로 대동 단결합니다.

  • UTF-8은 유니코드를 3 Byte로 변환합니다.
  • 영문은 1 Byte를 사용합니다.

0개의 댓글

관련 채용 정보