TIL

양진영·2021년 10월 27일
0

오늘은 2021년 10월 27일 수요일, CS 기초에 대해서 배웠다.

Computer Scienc(컴퓨터 공학)을 배워야 하는 이유는..
과거를 알아야 미래에 비슷한 일이 발생했을 때 원인을 쉽게 찾을 수 있기 때문이다.


✋ 오늘 정리할 개념


  • 문자열과 관련된 인코딩/디코딩 개념
    - 유니코드
    - UTF-8 / UTF-16

유니코드와 인코딩


유니코드란, 전 세계의 다양한 자연언어(한국어, 영어..)들을 컴퓨터가 알아들 수 있도록 일관되게 표현하고 다루는 설계된 산업 표준이다. 예를 들어, 똑같은 한국어라도 어떻게 인코딩 시키느냐에 따라 디코딩하는 방법도 달라지기 때문에 이를 하나의 표준(기준)으로 통일시켜 발생할 수 있는 에러들을 줄일 수 있게 된다.

인코딩(부호화)란?

어떤 문자나 기호를 컴퓨터가 이용할 수 있는 신호로 만든 것

🥎 UTF-8/UTF-16

여기서 utf-8/utf-16은 유니코드를 인코딩하는 방법을 의미한다.

[ 자연언어 ] 🔜 [ 유니코드 ] 🔜 [ utf-8 ]
'코'라는 문자의 유니코드는 
16진수(HEX) : U+CF54 / 2진수(binary number) : 1100-1111-0101-0100
이를 UTF-8로 표현하면, 11101100 10111101 10010100로 표현된다.

[ 추가개념 ]

  • utf 뒤의 숫자는 8bit / 16bit의 약자이다.
  • utf-8은 가변길이(1byte ~ 4byte)를 갖는다.
  • utf-8은 바이트 순서를 따지지 않고, 자체적으로 순서가 정해진다.
  • utf-16은 4바이트로도 표현이 가능하나, 대부분 2바이트로 표현한다.
  • utf-16은 바이트 순서에 따라 종류도 달라진다.

0개의 댓글