-
분포가설
- 비슷한 의미를 가진 단어는 주변 분포도 비슷할 것이다 라는 가설
-
원핫 인코딩 : 단어를 벡터화하고자 할 때 가장 쉬운 방법
- 단점은 단어 사이의 관계를 전혀 알 수 없고 차원이 너무 커짐
-
임베딩 : 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 과정 전체를 의미
- 특징 : 벡터 내의 각 요소가 연속적인 값을 가진다.
-
Word2Vec(임베딩의 대표적인 모델) : 단어를 바로 벡터로 변환
- 단점 : 말뭉치에 등장하지 않는 단어는 벡터화 할 수 없다. (OOV) -> 단점 보완하기위한 모델은 fest-text
- CBoW : 주변 단어에 대한 정보를 기반으로 중심 단어의 정보를 예측모델
- Skip-gram : 중심 단어의 정보를 기반으로 주변 단어의 정보를 예측
- Word2Vec 구조
- 입력 : 원 핫 인코딩된 단어 벡터
- 은닉층 : 입베딩 벡터의 차원 수 (은닉층 1개)
- 출력층 : 단어 개수 (소프트 맥스 사용)