Word2Vec은 자연어 처리(NLP) 분야에서 단어를 수치화하는 대표적인 임베딩(embedding) 기법 중 하나입니다. 단어들을 벡터 공간에 표현하여, 컴퓨터가 단어 간 의미적 관계를 수치적으로 이해할 수 있도록 돕습니다.
기존 자연어 처리에서 단어를 표현하는 대표적인 방식은 **원-핫 인코딩(One-hot encoding)**이었습니다.
원-핫 인코딩은 단어 하나당 고유한 위치에만 1을 갖고 나머지는 0인 벡터를 만드는 방식입니다. 하지만 이 방식은
는 문제점이 있었습니다.
이런 한계를 극복하기 위해 2013년 구글에서 개발한 Word2Vec은 **단어를 저차원 밀집 벡터(Dense Vector)**로 변환하여 단어 간 의미 관계를 벡터 공간에서 나타낼 수 있게 했습니다.
Word2Vec은 다음 두 가지 방식으로 단어 임베딩을 학습합니다.
CBOW (Continuous Bag of Words)
주변 단어들(context)로부터 중심 단어(target)를 예측하는 방식
예: 문장 내 “The cat sat on the mat”에서 “cat” 주변 단어들로 “cat”을 맞추는 학습
Skip-gram
중심 단어로부터 주변 단어들을 예측하는 방식
예: “cat”이 주어졌을 때 “The”, “sat”, “on”, “the”, “mat” 중 주변 단어들을 예측
이 두 방식 모두 단어가 어떤 문맥에서 등장하는지 학습하며, 자연스레 의미적으로 유사한 단어들은 비슷한 벡터 공간 좌표를 갖게 됩니다.
항목 | 설명 |
---|---|
Word2Vec | 단어를 의미 공간에 임베딩하는 대표적 기법 |
학습 방식 | CBOW와 Skip-gram |
특징 | 저차원, 밀집 벡터, 의미적 관계 반영 |
활용 | NLP 전반에 걸친 다양한 분야 |
Word2Vec은 단어를 단순한 문자 나열이 아닌, 수학적으로 의미 있는 벡터로 바꾸어 자연어 처리 기술의 기초를 다진 혁신적인 방법입니다. 이 기술을 이해하는 것은 현대 AI에서 언어를 다루는 여러 응용의 첫걸음이라 할 수 있습니다.