e.g., U+AC00
ord: character to unicode code point
chr: unicode code point to character
완성형 한글 11,172자
조합형 한글
사람이 직접 정의한 rule로 tokenizing에 한계가 있음에 동의하는 추세이고, 최근에는 데이터 기반으로 접근하는 추세라고 한다.