Character

Clear·2023년 11월 21일
0

char

문자 전용 타입으로 ASCII 인코딩을 사용하여 문자를 비트 상태와 대응시킨다.
알파벳, 특수문자, 제어문자 등으로 모든 문자의 개수가 128개 이므로 7bit 만 사용한다.
이것은 맨 왼쪽 비트가 0 으로 설정되어 있는 것을 알 수 있다.

유니코드

세상 모든 문자들에게 코드를 부여한 것을 의미한다.

  • 기원
    알파벳을 특정한 ASCII 코드로서는 모든 문자를 나타낼 수 없었기 때문에 각각의 문자를
    표현하기 위해 char 를 변형하여 맨 왼쪽 비트가 1일 경우 char 를 2개 묶어 한 문자로
    표현하는 방법을 사용하였는데 이를 코드페이지라 한다.
    코드페이지는 각 문화권에 따라 개별적으로 존재하며 같은 비트를 가지더라도 다르게 해석하는 경우가 있으며 이는 언어별 호환성에 상당한 제약을 주었다.
    하여 모든 문자들을 단일 코드로 통합하는 유니코드가 탄생하게 되었다.

UTF - N

유니코들를 실제 컴퓨터의 타입으로 변형하는 것으로 N 비트의 배수로 한 문자를 표현하는 의미이다.

wchar_t

C++ 에서 UTF-16·18 제공하는 데이터 타입이다.
wide character 형태를 표현하기 위해선 L 매크로를 사용한다.

'A' // = char 형
L'A' // = wchar_t 형
"ABC" // = char 형 배열
L"ABC" // = wchar_t 형 배열
profile
GameProgrammer

0개의 댓글