Word2Vec이란 무엇인가?

이세준·2025년 8월 4일
0

Word2Vec이란 무엇인가?

Word2Vec은 자연어 처리(NLP) 분야에서 단어를 수치화하는 대표적인 임베딩(embedding) 기법 중 하나입니다. 단어들을 벡터 공간에 표현하여, 컴퓨터가 단어 간 의미적 관계를 수치적으로 이해할 수 있도록 돕습니다.


1. Word2Vec의 탄생 배경

기존 자연어 처리에서 단어를 표현하는 대표적인 방식은 **원-핫 인코딩(One-hot encoding)**이었습니다.
원-핫 인코딩은 단어 하나당 고유한 위치에만 1을 갖고 나머지는 0인 벡터를 만드는 방식입니다. 하지만 이 방식은

  • 벡터 차원이 너무 크고 희소하다 (어휘 수만큼 차원이 필요)
  • 단어 간 의미적 유사성을 전혀 반영하지 못한다

는 문제점이 있었습니다.

이런 한계를 극복하기 위해 2013년 구글에서 개발한 Word2Vec은 **단어를 저차원 밀집 벡터(Dense Vector)**로 변환하여 단어 간 의미 관계를 벡터 공간에서 나타낼 수 있게 했습니다.


2. Word2Vec의 핵심 아이디어

Word2Vec은 다음 두 가지 방식으로 단어 임베딩을 학습합니다.

  • CBOW (Continuous Bag of Words)
    주변 단어들(context)로부터 중심 단어(target)를 예측하는 방식
    예: 문장 내 “The cat sat on the mat”에서 “cat” 주변 단어들로 “cat”을 맞추는 학습

  • Skip-gram
    중심 단어로부터 주변 단어들을 예측하는 방식
    예: “cat”이 주어졌을 때 “The”, “sat”, “on”, “the”, “mat” 중 주변 단어들을 예측

이 두 방식 모두 단어가 어떤 문맥에서 등장하는지 학습하며, 자연스레 의미적으로 유사한 단어들은 비슷한 벡터 공간 좌표를 갖게 됩니다.


3. Word2Vec 벡터의 특징

  • 저차원 실수 벡터: 보통 100~300차원 벡터로 단어를 표현한다.
  • 의미적 유사성 반영: 벡터 간 거리나 코사인 유사도로 단어 간 의미 유사도를 측정할 수 있다.
  • 벡터 연산 가능: 벡터 덧셈, 뺄셈으로 단어 간 관계를 표현할 수 있다.
    예: “king” - “man” + “woman” ≈ “queen”

4. Word2Vec의 활용 분야

  • 문서 분류 및 감성 분석
  • 기계 번역 및 챗봇
  • 추천 시스템과 검색 엔진
  • 텍스트 유사도 및 클러스터링

5. 요약

항목설명
Word2Vec단어를 의미 공간에 임베딩하는 대표적 기법
학습 방식CBOW와 Skip-gram
특징저차원, 밀집 벡터, 의미적 관계 반영
활용NLP 전반에 걸친 다양한 분야

마무리

Word2Vec은 단어를 단순한 문자 나열이 아닌, 수학적으로 의미 있는 벡터로 바꾸어 자연어 처리 기술의 기초를 다진 혁신적인 방법입니다. 이 기술을 이해하는 것은 현대 AI에서 언어를 다루는 여러 응용의 첫걸음이라 할 수 있습니다.

profile
기술정리

0개의 댓글