아스키란 ?
정보 교환을 위한 미국 표준 코드 (American Standard Code for Information Interchange)
또는 줄여서 ASCII (아스키) 부른다.
영문 알파벳을 사용하는 대표적인 문자 인코딩
7비트를 사용하여 문자나 기호를 최대 128자를 나타냅니다.
아스키 코드 표
제어 문자 란
아스키 제어 문자 표
컴퓨터가 널리 쓰이게 됨에 따라 그 밖의 언어를 지원을 위해
국제 표준화 기구 ISO(International Standards Organization)는
ISO-646(7비트의 문자 코드를 규정하는 국제 표준화 기구 표준 ) ,
ISO-8859(8비트의 문자 코드를 규정하는 국지 표준화 기구 표준) 를
도입하여 아스키를 확장해 각 나라 언어판의 문자 코드가 규정 되었다.
문자 코드 규정 예제
일본 산업 표준 JIS(Japanese Industrial Standards) JIS X 0201
한국 산업 규격 KS (Korean Industrial Standards) KS C 5601 (현재 KS X 1001)
등 각 나라별 표준이 생겼다.
유니코드란?
숫자와 글자 , 즉 키와 값이 1:1로 매핑된 형태의 코드
아스키 코드로 표현할 수 없는 문자 , 기호등 유니코드라는 이름 아래
전 세계의 모든 문자를 특정 숫자(키)와 1:1로 매핑한 것이다.
16비트를 사용 하여 21비트까지 확장.
유니코드 표
유니코드 표기법
ex) 안 = U+C548
UTF-8 (유니코드 변환 형식 8비트)
유니코드를 위한 인코딩 방법
호환성과 효율성 좋아 가장 많이 사용.
아스키가 아닌 문자의 경우 아스키를 받아서 처리하는
프로그램이 깨지지 않는 방법으로 문자를 인코딩
인코딩 : 다른 비트 패턴을 표현하기 위해 사용하는 비트 패턴
(컴퓨터가 이해할 수 있는 형태로 바꿔주는것)
문자를 8비트 덩어리(octet) 각각 정의된 순서(시퀀스) 인코딩.
UTF-8 유니코드 인코딩 예제
A = U+0x0041(유니코드) = 0x41(16진수) = 1000001(2진수) = 0(MSB)1000001(8bit)
𝝅 = U+0x03C0(유니코드) = 0xCF 0x80(16진수) = 11001111 / 10000000(2진수)
= 110(MSB)01111 / 10(MSB)000000(8bit)
♣ = U+0x2663(유니코드) = 0xE2 0x99 0xA3 (16진수) = 11100010 / 10011001 / 10100011(2진수)
=1110(MSB)0010 / 10(MSB)011001 / 10(MSB)100011(bit)