단어의 표현 방법 (Word Representation)

허허맨·2025년 7월 31일

LLM

목록 보기

6/12

📌 단어의 표현 방법 (Word Representation)

1. 개요

자연어 처리(NLP)에서 단어를 수치로 표현하는 방법은 매우 다양합니다.
단어를 어떻게 표현하느냐에 따라 모델이 학습할 수 있는 의미 정보와 문맥 정보가 크게 달라집니다.

2. 단어 표현 방법의 두 가지 큰 축

2.1 국소 표현 (Local Representation)

정의: 해당 단어 그 자체만 보고, 고유한 값(또는 벡터)을 부여하는 방식
다른 이름: 이산 표현(Discrete Representation)
예시:
- puppy → 1번
- cute → 2번
- lovely → 3번
특징:
- 단순하고 직관적
- 단어 간 의미적 유사성을 표현하지 못함
- 컴퓨터가 단어의 의미를 이해하기 어려움

2.2 분산 표현 (Distributed Representation)

정의: 단어를 표현할 때 **주변 단어(문맥)**를 참고하여 의미를 반영하는 방식
다른 이름: 연속 표현(Continuous Representation)
예시:
- puppy 주변에 자주 등장하는 단어 → cute, lovely
  → puppy라는 단어가 “귀엽고 사랑스러운 존재”라는 의미를 학습
특징:
- 단어 간 의미적 유사성 표현 가능
- 벡터 공간에서 비슷한 의미의 단어들이 가깝게 위치
- Word2Vec, GloVe, FastText 등 대부분의 최신 임베딩 기법이 여기에 속함

💡 참고: 구글 연구원 Tomas Mikolov는 2016년 발표에서,
LSA, LDA 같은 기법도 연속 표현이지만 Word2Vec과 같은 분산 표현과는 접근 방식이 다르다고 설명했습니다.
즉, **연속 표현(Continuous Representation)**이 더 큰 범주이며, **분산 표현(Distributed Representation)**은 그 안에 포함되는 개념입니다.

3. 이 책에서의 학습 순서 (Word Representation Roadmap)

3.1 국소 표현 (Local Representation)

Bag of Words (BoW) — 단어의 빈도를 세어 벡터화
Document-Term Matrix (DTM/TDM) — BoW 확장형
TF-IDF — 단어의 빈도 + 중요도를 반영한 가중치 부여

3.2 연속 표현 (Continuous Representation)

Word2Vec — 예측 기반 임베딩 (CBOW, Skip-gram)
FastText — 서브워드(Subword) 단위 임베딩 확장
GloVe — 예측 + 카운트 기반의 혼합 임베딩

📌 정리

단어 표현은 크게 **국소(Local) vs 분산(Distributed)**으로 나뉨
국소 표현 → 단순 빈도 기반 (BoW, TF-IDF 등)
분산 표현 → 의미·문맥 기반 (Word2Vec, FastText, GloVe 등)
최신 NLP 모델(LLM 포함)은 대부분 분산 표현을 기반으로 발전

허허맨

사람은 망각의 동물입니다. 때로는 기록으로 과거의 나를 데려옵니다.