
ord('엄')
50628
chr(50628)
'엄'
파이썬으로 텍스트 전처리를 하다가 정규식으로 한글 영어만 추출할 때, 가끔 데이터가 None이 되는 경우가 많이 발생한다.
그런 경우에는 대부분 같은 문자이지만 아스키 코드가 달라서 발생하는 문제들이다.
이런 이슈(오류)들을 피하기 위해서 유니코드 정규화(unicodedata.normalize)를 해야 한다.
import unicodedata
unicodedata.normalize('NFC', '안녕')
'안녕'
unicodedata.category(chr):chr 문자에 할당된 일반 범주(general category)를 문자열로 반환.
Mn: Mark, no spacing(발음구별기호)LI: Letter, lower caseLu: Letter, upper case
unicodedata.category('c')
'Ll'
unicodedata.category('C')
'Lu'
