[TIL] HTTP : The Definitive Guide "p378 ~ p384"

시윤·2026년 1월 16일

[TIL] Two Pages Per Day

목록 보기

148/162

(해석 또는 이해가 잘못된 부분이 있다면 댓글로 편하게 알려주세요.)

Glyph : 문자를 표현하는 특정 방식
- 하나의 문자가 여러 개의 Glyph를 가질 수 있다
- 문자를 표현 형태와 동일한 곳으로 간주하지 않도록 유의해야 한다

Ligature : 인접한 두 문자를 매끄럽게 연결하기 위한 표현 방식
- Glyph가 바뀌었을 때 텍스트의 의미가 바뀐다면 두 Gliph는 서로 다른 문자를 나타냄을 의미한다

US-ASCII

1968 ANSI 표준에 의해 정의된 문자 집합

0-127 사이의 코드 사용 -> 7비트의 Code Space 필요

Iso-8859

US-ASCII를 포함하는 8비트의 superset

128개의 나머지 비트에 모든 유럽의 문자를 담기 부족해서 iso-8859에 여러 가지 버전이 탄생하게 됨 (ex. Iso-8859-1은 서유럽 문자 포함)

JIS X 0201

ASCII + half-width katakana

JIS X 0208 & JIS X 0212

0208 : 최초의 멀티바이트 일본어 문자 집합 -> 6879개의 Coded Character 포함

0212 : 0208에 6067개의 문자가 추가된 버전

UCS(Universal Character Set)

전 세계 문자를 통합하기 위해 ISO 10646에 정의된 표준

유니코드가 UCS 표준을 따른다

수백만 개의 문자를 저장할 수 있는 Coding Space를 보유하고 있다

Fixed width

고정된 수의 비트로 Coded Character를 표현하는 방식

Variable width (nonmodal)

서로 다른 문자 코드에 서로 다른 비트 개수를 할당할 수 있다.

일반적인 문자는 비트 개수를 줄일 수 있다.

레거시 8비트 문자 집합이 호환되며 국제 문자에 대해서는 멀티바이트를 사용할 수 있다.

Variable width (modal)

Escape 패턴을 활용해서 서로 다른 모드간 전환을 수행할 수 있다.

텍스트 내에서 여러 개의 중복된 문자 집합을 오가야 할 때 사용된다.

처리가 복잡하지만 쓰기 시스템에서 유용하다.

Variable width (nonmodal)
첫 바이트는 인코딩된 문자 바이트의 길이를 나타낸다.
- 첫 바이트가 0이면 길이가 1바이트임을 의미한다
그 이후의 바이트는 6비트의 코드 값을 포함한다.
- 만약 문자 코드가 5073(1001111010001)이면 길이가 13이므로, 11100001 10001111 10010001 의 3바이트로 표현 가능하다.

틈틈이 두 페이지씩 원서 읽기