자연어를 숫자나 벡터 형태로 변환하는 것
단어나 문장을 수치화해 벡터 공간으로 표현하는 과정
컴퓨터에서 자연어를 처리하기 때문에 자연어를 숫자나 벡터 형태로 변환해야 한다.
말뭉치(혹은 코퍼스)내 단어의 의미를 고려하여 좀 더 조밀한 차원에 단어를 벡터로 표현하는 것
LSA
Word2Vec
GloVe
FastText
신경망 기반 단어 임베딩의 대표적인 방법
CROW(coninuous bag-of-words): 주변 단어들 기준으로 가중치 데이터를 임베딩 벡터로 활용
Skip-Gram: 하나의 타깃 단어를 기준으로 주변 단어를 예측
자연어를 그대로 처리할 수 없으므로 연산 가능한 벡터 형태로 변환하는 것을 임베딩이라고 한다.
말뭉치의 품질과 데이터양이 충분하다면 훌륭한 품질의 임베딩 모델을 구축할 수 있다.
임베딩은 신경망 모델의 입력으로 많이 사용된다.
당신의 시간이 헛되지 않는 글이 되겠습니다.
I'll write something that won't waste your time.