Transformer self attention vs GloVe

Soogyung Gwon·2026년 5월 9일

구름을잡아라

목록 보기
55/60

어느 정도는 비슷한 철학이 있습니다. 특히 “단어 간 관계를 통해 의미를 표현한다” 는 점에서 연결됩니다.
하지만 실제 방식은 꽤 다릅니다.

핵심만 먼저 말하면:

  • NLP에서
    • GloVe는 고정된(static) 단어 의미 벡터를 만든다.
    • Self-Attention은 문맥에 따라 동적으로 관계를 계산한다.

비슷한 점

1. 둘 다 “단어 관계”를 사용한다

GloVe

GloVe는:

“같이 자주 등장하는 단어는 의미가 비슷하다”

라는 아이디어를 사용한다.

예:

  • king ↔ queen
  • cat ↔ dog

처럼 동시 등장(co-occurrence)을 이용한다.

즉:

P(ji){P(j|i)}

같은 전역 통계(global statistics) 를 본다.


Self-Attention

Self-Attention도 결국:

어떤 단어가 다른 단어와 얼마나 관련 있는가?

를 계산한다.

예:

"The animal didn't cross the street because it was tired."

여기서 "it""animal" 을 강하게 참고한다.

즉 단어 간 관계를 weight로 계산한다.


특히 비슷하게 느껴지는 부분

GloVe의 핵심 중 하나는:

wiTw~j{w_i^T \tilde{w}_j}

같은 벡터 내적(dot product) 이다.

Self-Attention도 핵심이:

QKT{QK^T}

이다.

즉 둘 다:

  • 벡터를 만들고
  • 벡터 간 내적을 통해
  • 관계 강도를 측정한다

는 공통점이 있다.

그래서 수학적으로 보면 꽤 연결감이 있다.


하지만 결정적인 차이

1. GloVe는 “고정 의미”

GloVe에서:

bank{\text{bank}}

는 항상 같은 벡터다.

즉:

  • river bank
  • bank account

모두 동일 벡터.

문맥을 모른다.


2. Self-Attention은 “문맥 기반 의미”

Transformer에서는:

bank{\text{bank}}

가 문맥마다 달라진다.

예:

  • river bank → 자연 지형 의미
  • bank loan → 금융 의미

attention이 주변 단어를 참고해서 representation을 계속 업데이트한다.

이게 현대 NLP가 강력해진 핵심 중 하나다.


구조적으로 보면

GloVe

단어 통계
→ 단어 벡터 학습
→ 끝

Transformer

입력 임베딩
→ Self-Attention
→ 문맥 반영
→ 새로운 표현 생성
→ 반복
항목GloVeSelf-Attention
관계 사용OO
벡터 내적 사용OO
문맥 반영XO
동적 계산XO
전역 통계 기반O부분적으로
문장 내부 관계 계산제한적매우 강함
profile
오랜시간 망설였던 코딩을 다시 해보려고 노력하고 있는 사람

0개의 댓글