CS 3

최성원·2022년 1월 20일
0

CS

목록 보기
2/16

Day-3

1장 컴퓨터 내부의 언어 체계

5. 텍스트 표현

5-1 아스키 코드

아스키란 ?

  • 정보 교환을 위한 미국 표준 코드 (American Standard Code for Information Interchange)

    또는 줄여서 ASCII (아스키) 부른다. 
  • 영문 알파벳을 사용하는 대표적인 문자 인코딩

  • 7비트를 사용하여 문자나 기호를 최대 128자를 나타냅니다.

아스키 코드 표

제어 문자 란

  • 글자를 출력하는데 사용하지 않고 장치를 제어하기 위해 쓰인다.
  • 제어 문자중 상당수는 통신을 위한 문자.

아스키 제어 문자 표

1-2 다른 표준의 진화

컴퓨터가 널리 쓰이게 됨에 따라 그 밖의 언어를 지원을 위해

국제 표준화 기구 ISO(International Standards Organization)는

ISO-646(7비트의 문자 코드를 규정하는 국제 표준화 기구 표준 ) ,

ISO-8859(8비트의 문자 코드를 규정하는 국지 표준화 기구 표준) 를

도입하여 아스키를 확장해 각 나라 언어판의 문자 코드가 규정 되었다.

문자 코드 규정 예제

일본 산업 표준 JIS(Japanese Industrial Standards) JIS X 0201

한국 산업 규격 KS (Korean Industrial Standards) KS C 5601 (현재 KS X 1001)

등 각 나라별 표준이 생겼다.

1-3 유니코드 변환 형식 8비트

유니코드란?

  • 숫자와 글자 , 즉 키와 값이 1:1로 매핑된 형태의 코드

  • 아스키 코드로 표현할 수 없는 문자 , 기호등 유니코드라는 이름 아래

    전 세계의 모든 문자를 특정 숫자(키)와 1:1로 매핑한 것이다. 
  • 16비트를 사용 하여 21비트까지 확장.

유니코드 표

유니코드 표기법

ex) 안 = U+C548

UTF-8 (유니코드 변환 형식 8비트)

  • 유니코드를 위한 인코딩 방법

  • 호환성과 효율성 좋아 가장 많이 사용.

  • 아스키가 아닌 문자의 경우 아스키를 받아서 처리하는

    프로그램이 깨지지 않는 방법으로 문자를 인코딩
  • 인코딩 : 다른 비트 패턴을 표현하기 위해 사용하는 비트 패턴

                  (컴퓨터가 이해할 수 있는 형태로 바꿔주는것)
  • 문자를 8비트 덩어리(octet) 각각 정의된 순서(시퀀스) 인코딩.

UTF-8 유니코드 인코딩 예제

A = U+0x0041(유니코드) = 0x41(16진수) = 1000001(2진수) = 0(MSB)1000001(8bit)

𝝅 = U+0x03C0(유니코드) = 0xCF 0x80(16진수) = 11001111 / 10000000(2진수)

= 110(MSB)01111 / 10(MSB)000000(8bit)

♣ = U+0x2663(유니코드) = 0xE2 0x99 0xA3 (16진수) = 11100010 / 10011001 / 10100011(2진수)

 =1110(MSB)0010 / 10(MSB)011001 / 10(MSB)100011(bit)
  • MSB(Most Significant Bit)란 어떠한 데이터 형의 최상위 비트를 의미
profile
각성구

0개의 댓글