[Encoding] 한글 인코딩

adam adam·2022년 9월 7일
0

한글 인코딩 역사

아스키 코드 (ASCII)

=>
KS C 5601 ; 1974년에 처음으로 제정, 1글자 2바이트로 표현 && 한국산업표준(KS)

=>
2004년에 개정된 ‘KS X 1001:2004’가 최신 규격이다.

=>
KS X 1001 기반의 문자 인코딩으로는 EUC-KR(완성형)과 ISO-2022-KR (과거 인터넷 메일에서 쓰던 문자 인코딩)

=>
MS 윈도에서 사용하는 CP949(MS949); EUC-KR의 확장형, 2바이트로 표현할 수 없는 한글 글자 마디 8,822자를 추가한 것

정리

KS C 5601 => KS X 1001:2004 => EUC-KR(완성형) => CP949(MS949)

한편, 또다른 방식의 한글 인코딩 방식에는 유니코드 계열의 조합형 UTF-8이 있다. 그리고
!! 22년도 한국시장 윈도우의 메모장의 기본 인코딩은 UTF-8이다. !!

기본 인코딩은 cp949이지만 한국윈도우또한 UTF-8과의 호환성을 이유로 전환중. 운영체제 업데이트마다 진행중으로 예상

배경 ; ASCII

인코딩의 시초

1byte로 문자를 표현하는데!
8bit 중 7bit만 문자 표시에 쓰고, 1 bit는 통신 에러 검출에 쓴다!

실질적으로 7bit 128이었구나...

완성형, 조합형

완성형 인코딩 계열

'가' <=> 0101010...
'나' <=> 1010101...

자음모음이 아닌 완성된 글자 단위로 이진 코드와 맵핑한 것

조합형

조합형 : 자음과모음별로 이진코드에 맵핑, 한글의 초성, 중성, 종성 체계에 부합

UTF-8(조합형) ; 최종표준이라 생각해두자.

그러나 굳이굳이 정말 굳이 리눅스의 인코딩의 불맛보고 싶어서 메모장을 다른 이름으로 저장할때 인코딩을 ANSI로 설정하면, 한국 locale에 따라서 CP949로 설정된다. 그런 점에서 ANSI는 우선 로컬커스텀 인코딩으로 이해가능하다.

추가

인코딩 분석 시 요소들

  1. 서버OS
  2. 웹서버OS
  3. 웹소스 ; 가령 이클립스에서 utf-8로 인코딩 및 빌드했을때인듯

[Eclipse] 이클립스 인코딩

참고자료

한국에서 정의한 인코딩

  1. 한글 인코딩 종류
    https://studyforus.tistory.com/167

추가

이클립스 인코딩

  1. 이클립스에서의 인코딩 ; ms949의 출현
    https://codevang.tistory.com/196

  2. MS949 부터 유니코드
    http://jinuine.blogspot.com/2013/09/ms949.html

0개의 댓글