언어란 하나의 시스템, 즉 체계
문자열(character) -> 음절(syllable) -> 단어 (word)
컴퓨터는 모든걸 숫자로 본다.
그 기반으로 발전해 오고 이것을 디지털이라고 한다.
단어는 어떻게 숫자로 표현될 수 있을까?
vector로 표현
단어를 vector로 표현하는 것을
one-hot vector 라고 한다
대부분 NLP task는 아는 단어를 모아 vocabulary를 구성하는 것부터 시작하고 가지고 있는 데이터 전부 끌어모으는 작업을한다
끌어 모으는 데이터를 corpus 라고 한다.
corpus 너무 크면 이 모든 단어를 vocabulary에 사용하는 것이 옳을까?
-> 주로 각 단어의 빈도수를 살펴본다 (word frequency)
통계학적 분석, 모델 학습 시킬때 한두 번 나오는 단어 무의미할 것이라고 가정한하기 때문에 ( 가정이 틀릴 수 도 있다 )
따라서 corpus에 사이즈에 따라 최소 빈도수 정해 몇번 이상 나오는 단어만 사용하거나,
총 vocabulary size 정하고 빈도수 큰 단어만 포함시키는 식으로 vocabulary 구성한다.