컴퓨터의 정보 표현:기본, 문자-1

develover·2023년 7월 2일

컴퓨터구조

목록 보기
1/3

💡 컴퓨터에서는 A, B, C와 같은 문자를 어떻게 나타낼까?

컴퓨터는 문자, 정수, 실수, 그림, 소리, 동영상 등 모든 정보를 2진수 형식으로 표현한다.

1-0. 비트

  • 비트의 이해 → 온-오프 / 전구의 불 켜짐-꺼짐 / 1-0

  • 1개의 0 또는 1 → 비트(bit) : 컴퓨터에서 데이터를 표현하는 최소 단위

  • 8비트 = 1바이트(byte).

  • n비트로 표현할 수 있는 정보의 수 → 2ⁿ가지

2-0. 문자 표현

2-1. 아스키 (ASCII, American Standard Code for Information Interchange) 코드

  • 1바이트 단위로 문자 표현
  • 초기 아스키 코드 : 7비트로 문자 표현,
    오류 검사를 위해 1개 비트 패리티(parity) 비트로 사용
  • 확장 아스키 (extended ASCII) 코드 : 8비트 전체 문자 표현
  • 문자에 부여된 값 => 인코딩 (정보를 코드에 맞춰 변환하는 것) 값

패리티 비트

  • 홀수 패리티 : 바이트 내 8개 비트에서 1의 개수가 홀수가 되도록 함

  • 짝수 패리티 : 바이트 내 8개 비트에서 1의 개수가 짝수가 되도록 함

    XOR 연산 통해서 오류 판정 (홀수 개의 1을 갖는 코드 -> 출력 1)

    (XOR 연산 참고:[velog]:https://url.kr/i3nsgo)

2-2. 유니코드 (unicode)

  • 전 세계 모든 문자 호환 가능 코드
  • 영어, 256개 문자만 표현 가능한 아스키 코드 보완
  • 2바이트 단위로 문자마다 코드 할당
  • 조합형/완성형 (<- 한글 표준)

ex) : "한" 코드 값 = 28(중성) x 21(종성) x 18(초성) + 28(종성) x 0(중성) + 4(종성)

  • 문자에 부여된 값을 인코딩하는 방식은 UTF-8, UTF-16, UTF-32 등

UTF-8

  • 8비트로 인코딩

  • 보편적으로 1~4바이트, 6바이트까지 사용

  • 한 문자당 인코딩 값<=유니코드 문자 부여 값에 따라 결정

  • 아스키 코드와 완벽 호환 (1바이트 영역)

  • 윈도우, 임베디드, 자바 제외 문자열 처리 표준

  • UTF-8 표현 규칙

    0과 1 제외 x 영역이 유니코드 저장용 비트

UTF-16

  • 16비트로 인코딩

  • 일반 문자 2바이트, 특정 문자 4바이트 사용

  • 멀티 바이트

  • 자바, 윈도우에서 사용

이외에 한국의 독자적 문자열 인코딩으로 2바이트를 사용하는 EUC-KR가 있다.


출처 : 소프트웨어 세상을 여는 컴퓨터과학, 김종훈, 2018

C포자를 위한 본격 C언어 프로그래밍, 허경용, 2021

혼자 공부하는 컴퓨터 구조+운영체제 : ...., 강민철, 2022

학교에서 알려주지 않는 17가지 실무 개발 기술: ....., 이기곤, 2020****

profile
대학생

0개의 댓글