혼자 공부하는 운영체제 -3- (데이터02)

개나뇽·2023년 5월 16일
  • 문자집합: 컴퓨터가 이해 가능한 문자의 모음

    • 인코딩
      : 문자를 0과 1로 이뤄진 문자코드로 변환하는 과정

    • 디코딩
      : 0과 1로 표현된 문자코드를 문자로 변환하는 과정

  • 아스키 코드
    : 초창기 문자집합 중 하나

    • 알파벳, 아라비아 숫자, 일부 특수문자및 제어문자
    • 7비트로 하나의 문자 표현 -> 128개
      • 8비트중 1비트는 오류 검출을 위한 패리티비트
    • 간단한 인코딩
      : 한글을 포함한 다른 언어문자, 특수문자 표현 불가
      -> 7비트로 하나의 문자를 표현하기에는 128개보다 많은 표현불가
      -> 8비트의 확장 아스키의 등자 그러나 여전히 부족
  • 한글 인코딩

    • 완성형 인코딩
      : 글자 하나하나에 코드를 부여
      ex) EUC-KR
      -> 글자 하나에 2바이트 크기의 코드 부여 (2byte -> 16bit -> 4자리 십육진수)
      -> 230여개의 한글표현 가능하나 여전히 부족

    • 조합형 인코딩
      : 자음모음에 코들를 부여

  • 유니코드
    : 통일된 문자집합으로 한글, 영어, 화살표등의 특수문자, 이모티콘 표현가능 현대 문자표현에 매우 중요한 위치하고 있으며 유니코드는 문자 하나하나에 고유한 십육진수가 부여되어있다.

    *유니코드 인코딩 방식
    -> utf-8, utf-16, utf-32

  • UTF-8

    • 가변길이 인코딩 : 인코딩의 결과가 1~4바이트로 몇바이트가 될지는 유니코드에 부여된 값에 따라 다름

    *글자가 깨지는등의 문제 : 인코딩 방식 또는 사용이 불가능한 문자집합인지를 확인

profile
정신차려 이 각박한 세상속에서!!!

0개의 댓글