[TIL] HTTP : The Definitive Guide "p378 ~ p384"

시윤·2026년 1월 16일

[TIL] Two Pages Per Day

목록 보기
148/153
post-thumbnail

Chapter 16. Internationalization

(해석 또는 이해가 잘못된 부분이 있다면 댓글로 편하게 알려주세요.)


✏️ 요약


Glyphs, Ligatures, and Presentation Forms

  • Glyph : 문자를 표현하는 특정 방식
    • 하나의 문자가 여러 개의 Glyph를 가질 수 있다
    • 문자를 표현 형태와 동일한 곳으로 간주하지 않도록 유의해야 한다

  • Ligature : 인접한 두 문자를 매끄럽게 연결하기 위한 표현 방식
    • Glyph가 바뀌었을 때 텍스트의 의미가 바뀐다면 두 Gliph는 서로 다른 문자를 나타냄을 의미한다

Coded Character Sets

  • RFC 2277, RFC 2130에 정의된 개념
  • 주로 Code로 인덱싱 된 배열로 구현된다

US-ASCII

  • 1968 ANSI 표준에 의해 정의된 문자 집합
  • 0-127 사이의 코드 사용 -> 7비트의 Code Space 필요

Iso-8859

  • US-ASCII를 포함하는 8비트의 superset
  • 128개의 나머지 비트에 모든 유럽의 문자를 담기 부족해서 iso-8859에 여러 가지 버전이 탄생하게 됨 (ex. Iso-8859-1은 서유럽 문자 포함)

JIS X 0201

  • ASCII + half-width katakana

JIS X 0208 & JIS X 0212

  • 0208 : 최초의 멀티바이트 일본어 문자 집합 -> 6879개의 Coded Character 포함
  • 0212 : 0208에 6067개의 문자가 추가된 버전

UCS(Universal Character Set)

  • 전 세계 문자를 통합하기 위해 ISO 10646에 정의된 표준
  • 유니코드가 UCS 표준을 따른다
  • 수백만 개의 문자를 저장할 수 있는 Coding Space를 보유하고 있다

Character Encoding Schemes

  • 문자 코드를 콘텐츠 비트로 변환하고, 콘텐츠 비트를 문자 코드로 변환하는 알고리즘

Fixed width

고정된 수의 비트로 Coded Character를 표현하는 방식

Variable width (nonmodal)

  • 서로 다른 문자 코드에 서로 다른 비트 개수를 할당할 수 있다.
  • 일반적인 문자는 비트 개수를 줄일 수 있다.
  • 레거시 8비트 문자 집합이 호환되며 국제 문자에 대해서는 멀티바이트를 사용할 수 있다.

Variable width (modal)

  • Escape 패턴을 활용해서 서로 다른 모드간 전환을 수행할 수 있다.
  • 텍스트 내에서 여러 개의 중복된 문자 집합을 오가야 할 때 사용된다.
  • 처리가 복잡하지만 쓰기 시스템에서 유용하다.

UTF-8

  • Variable width (nonmodal)
  • 첫 바이트는 인코딩된 문자 바이트의 길이를 나타낸다.
    • 첫 바이트가 0이면 길이가 1바이트임을 의미한다
  • 그 이후의 바이트는 6비트의 코드 값을 포함한다.
    • 만약 문자 코드가 5073(1001111010001)이면 길이가 13이므로, 11100001 10001111 10010001 의 3바이트로 표현 가능하다.
profile
틈틈이 두 페이지씩 원서 읽기

0개의 댓글