자연어 처리(NLP)에서 단어를 수치로 표현하는 방법은 매우 다양합니다.
단어를 어떻게 표현하느냐에 따라 모델이 학습할 수 있는 의미 정보와 문맥 정보가 크게 달라집니다.
정의: 해당 단어 그 자체만 보고, 고유한 값(또는 벡터)을 부여하는 방식
다른 이름: 이산 표현(Discrete Representation)
예시:
puppy
→ 1번cute
→ 2번lovely
→ 3번특징:
정의: 단어를 표현할 때 **주변 단어(문맥)**를 참고하여 의미를 반영하는 방식
다른 이름: 연속 표현(Continuous Representation)
예시:
puppy
주변에 자주 등장하는 단어 → cute
, lovely
puppy
라는 단어가 “귀엽고 사랑스러운 존재”라는 의미를 학습특징:
💡 참고: 구글 연구원 Tomas Mikolov는 2016년 발표에서,
LSA
, LDA
같은 기법도 연속 표현이지만 Word2Vec과 같은 분산 표현과는 접근 방식이 다르다고 설명했습니다.
즉, **연속 표현(Continuous Representation)**이 더 큰 범주이며, **분산 표현(Distributed Representation)**은 그 안에 포함되는 개념입니다.
📌 정리