유니코드

엘제이·2022년 5월 12일

컴퓨터의 저장 단위 bite 와 byte

1bite 1/0 2개 정보 저장 2의 1승 2x1
2bite 00/01/10/11 4개 정보 저장 2의 2승 2x2
3bite 000/001/011/010/100/110/101/111 8개 정보 저장 2의 3승 2x2x2

. . .
8bite ... 1byte 256개 정보 저장 2의 8승 2x2x2x2x2x2x2x2

컴퓨터가 인지하는 글자는 0과 1뿐
컴퓨터가 휴먼랭귀지를 저장하고 표현할 수 있도록 글자마다 숫자를 부여
이를 인코딩 이라고 한다
인코딩은 통일된 규칙을 가져야 하는데 그 규칙을 정의해 놓은 것이 아스키코드 이다

아스키코드

1byte가 한글자
그 중에 1bite는 통신에러검출비트 parity bit

Decimal(10진수)은 컴퓨터에 저장되는 숫자를 의미
Char(문자)은 인간언어의 글자
HEX 0 - 32번까지는 사실 눈에 보이는 글자는 아니고, 문서조작에 관련된 기능들
컴퓨터 문서 작성 시에는 글자 외에 필요한 기능들이 필요
예)
8번 backspace
9번 tab
13번 엔터
27번 ESC
32번 스페이스
33 - 126번 시각적인 글자
127번 DEL

초창기 영어만 표시하던 것이 각 나라별 언어를 표시하기 위한 인코딩 방식이 만들어졌는데 전세계 문자를 다 모아서 만든 문자집합이 유니코드
같은 유니코드 일지라도 다른방식으로 인코딩을 할 수 있는데 UTF-8, UTF-16 대표적

UTF-8

가변길이 문자 인코딩 방식 - 한 문자를 나타내기 위해 1바이트 ~ 4바이트까지 사용
아스키 코드의 7비트는 그대로 UTF-8에 포함
나머지 1비트 0을 채워서 0X XX XX XX 2진법 형태로 저장
아스키코드는 한글자 1바이트 체제, 그 다음은 한글자를 2바이트 체제
혼동하지 않도록 2바이트체제 에서 아래와 같이 구분한다

1바이트체제 0XXXXXXX (2진법 형태)
2바이트체제 110XXXXX 10XXXXXX
3바이트체제 1110XXXX 10XXXXXX 10XXXXXX
4바이트체제 11110zzz 10zzXXXX 10XXXXXX 10XXXXXX

UTF-16 한글자를 2바이트 체제로 표시한다

문서관련 작업을 하거나 웹관련 작업을 할때 아스키코드가 지정되어 있으면 한글이 모두 깨지니 UTF-8 인코딩 방식을 지정해줘야 한다

엘제이

잔잔바리 돈 버는 한량, 미치도록 놀고 싶다

이전 포스트

vue.js 설치 및 세팅

다음 포스트

유니코드

컴퓨터의 저장 단위 bite 와 byte

아스키코드

UTF-8

vue.js 설치 및 세팅

용어정리

0개의 댓글