Unicode, Tokenization

naem1023·2021년 10월 12일
1

MRC

목록 보기
2/11

Unicode

e.g., U+AC00

  • 'U+': unicode를 뜻하는 접두어
  • 'AC00': 16진수 code point

python

  • ord: character to unicode code point

  • chr: unicode code point to character

  • 완성형 한글 11,172자

    • len을 적용하면 2 반환
  • 조합형 한글

    • len을 적용하면 1 반환

Tokenization

사람이 직접 정의한 rule로 tokenizing에 한계가 있음에 동의하는 추세이고, 최근에는 데이터 기반으로 접근하는 추세라고 한다.

  • Subword
    • 자주 쓰이는 글자 조합을 하나의 단위로 취급
    • 자주 쓰이자 않는 조합은 subword로 분할
  • BPE(Byte-Pair Encoding)
    • 가장 자주 나오는 글자 단위 Bigram(or Byte Pair)를 다른 글자로 치환
profile
https://github.com/naem1023

0개의 댓글