임베딩 층: 단어를 고정 길이 벡터로 변환
벡터 공간에서 단어 의미를 학습 → 비슷한 단어끼리 가까워짐
Word2Vec, LLM 모두 문맥 기반 의미 구조 형성
차이점:
Word2Vec:
LLM:
정의: 데이터 자체에서 학습 신호를 만들어 학습하는 방법
특징:
예시:
[MASK] 단어 예측장점:
Negative Sampling으로 효율화 가능
학습 방식:
목표: 이전 단어 시퀀스 → 다음 단어 예측
Loss: Cross-entropy (next-token prediction)
학습 방식:
특징:
초기 상태: 벡터 무작위 → 혼돈, loss 큼
문맥 기반 gradient 이동: dot product ↑ → 주변 단어 예측 개선
우연적 군집 형성: 같은 문맥 단어끼리 벡터 가까워짐
반복 학습 → 의미 기반 벡터 공간 완성
결과:
"좋다" ≈ "행복하다""자동차" ≠ "밥"요약하면, Word2Vec과 LLM 모두 self-supervised 학습을 통해 의미 벡터를 만들고, 반복 학습으로 문맥 기반 단어 군집을 형성한다. LLM은 각 임베딩 벡터가 독립적이라는 특징이 있지만, 유사 단어끼리 가까워지는 것은 동일하다.