문자를 표현하는법

이건준·2022년 3월 1일
0

텍스트표현

문제제기

-> 컴퓨터는 항상 비트를 다루고 비트를 사용해 수와 같은 대상을 표현할 수 있다, 그렇다면 키보드에 있는 다른 기호등을 표현하기위해선 어떻게 해야할까 ??

문제해결

-> 이를 해결하기위해서 아스키코드를 사용한다
-> 대문자 A부터 대문자 Z까지 65~90을, 소문자 a부터 소문자 z까지 97~122로 표현했던것이 아스키코드였다
-> 문자나 기호들의 집합을 컴퓨터에서 저장하거나 통신 목적으로 사용할 경우에는 부호로 바꾸어야 한다.

1. 아스키코드

-> 초기 컴퓨터는 미국산 혹은 영국산이라 영어를 표현하기에는 무리가 없었다

-> 위와 같은 이유로 처음 나온게 7비트를 이용하여 문자를 표현할 수 있는 아스키코드이다
-> 컴퓨터의 기본 비트단위가 1바이트 즉 8비트인데 7비트만을 가지고 문자를 표현하는 이유는 1비트는 통신에러검출을 위한 비트로 사용되기때문이다

2. ANSI 코드

-> 하지만 아스키코드의 7비트를 가지고 문자를 표현하기에는 부족하였으며 8비트로 확장한것을 ANSI 코드라 부르기로하였다 

3. 유니코드

-> 하지만 ANSI코드의 8비트로도 전세계 언어를 표현하기에는 턱없이 부족하였으며 비로서 전세계 언어를 정의하기위한 국제표준코드가 나오게되었는데 이를 유니코드라 한다
-> 처음엔 16비트, 21비트까지 확장되었지만 이마저도 모든것을 담기엔 충분치않을 수 있다 

4. 유니코드 변환 형식 8비트

-> 컴퓨터는 8비트를 사용해 아스키 문자를 저장
-> 유니코드로 많은 언어를 표현할 수 있었지만 이는 비트를 많이 사용하기에 용량이 크다는 문제가 있었고 이를 해결하기위한 방법이 인코딩이였다
-> 이러한 인코딩방식중 널리 쓰이는 방법이 "유니코드 변환 형식 8비트(UTF-8)"이다
-> UTF-8은 모든 아스키 문자를 8비트로 표현, 아스키가 아닌 문자는 인코딩한다(8비트 덩어리(옥텟이라 부름)의 시퀀스로 인코딩한다)

-> UTF-8은 저장할 수 있는 최소 비트 단위가 8이다, 즉 UTF-8인코딩방식을 많이 사용하는 이유는 UTF-16같은 경우엔 최소 비트 단위가 16비트이므로 아스키코드 18비트를 표현해야한다면 UTF-8은 8비트 3개를 사용해서 표현해야하지만 UTF-16같은 경우는 단위가 16비트이므로 아스키코드 18비트를 표현하기위해서 32비트나 써야하니 효율적이지 못한것이다

0개의 댓글

관련 채용 정보