Attention ❕

Jhyunee·2024년 2월 1일

Attention NLP Paper

Summary !

1. Self Attention 👀

1-1. Self Attention

1-2. Self Attention의 Q, K, V 벡터

2. Scaled dot-product Attention ➗

2-1. Scaled dot-product Attention

2-2. 행렬을 통한 일괄 연산

3. Multi-head Attention 🤯

3-1. Multi-head

NLP

목록 보기

2/2

📑 Attention Is All You Need
🔗 reference link

Summary !

💭 Self-Attention은 자기자신 문장에 대한 단어끼리의 유사도를 구하는 방법이며,
Attention 함수의 종류는 다양하다.

해당 논문에서는 Scaled-dot product 함수를 사용하며,
이때, N차원으로 축소한 Q, K, V 벡터를 이용,
N겹의 Attention을 병렬로 처리하고 concatenation을 통해 합치는

Multi-head Attention 방법을 적용한다.

1. Self Attention 👀

💡 입력 문장 내의 단어들끼리, 즉 자기자신 문장에 대한 유사도를 구하여 문맥을 파악
Self Attention의 `Q, K, V`
 = 입력 문장의 모든 단어 벡터들
Query에 대한 모든 Key와의 유사도를 계산 !

1-1. Self Attention

Self Attention example

Basic Attention function

Attention 개념

Query에 대해서 모든 Key와의 유사도를 계산
유사도 = 가중치, 각 Key와 대응되는 Value 값에 반영
- Return Weighted Sum of Value

1-2. Self Attention의 Q, K, V 벡터

Self Attention example - word vector, W는 가중치 벡터

Self Attention : 입력 문장의 단어 벡터들을 가지고 수행
- $d_{model}$ 차원의 단어 벡터 → Q, K, V 벡터로 변환하여 이용

해당 논문에서는 $d_{model} = 512$ 차원의 단어 벡터 → $64$ 차원의 Q, K, V로 변환
- num_heads = 8

2. Scaled dot-product Attention ➗

💡 Attention mechanism
각 Q 벡터는 모든 K 벡터에 대하여 Attention score를 계산 ; 유사도
Attention score를 이용하여 모든 V 벡터를 가중합
Return `Context vector`
어텐션 함수의 종류는 다양하다

2-1. Scaled dot-product Attention

Scaled dot-product example (128, 32 is an arbitary num)

연산 개념

Input
[ I am a student ]
1. 벡터끼리 Dot-product
  - 입력 문장의 단어 벡터 → 변환된 Q, K, V 벡터를 이용
  - 단어 ‘I’에 대한 Q 벡터가 모든 K 벡터에 대해 연산
2. 스케일링
  - $\sqrt{d_k} = 8$ ; $(d_k = d_{model} / num\_heads)$
  - 단어 ‘I’ - 각 단어 ‘I’, ‘am’, ‘a’, ‘student’와의 연관성을 의미
    - Return Attention score
3. Attention value
  - Softmax(Attention score)
  - 각 단어에 대응되는 V 벡터에 대해 가중합
    - Return Context vector

2-2. 행렬을 통한 일괄 연산

각 단어에 대해 벡터 연산을 하는 대신, 문장 단위의 행렬을 이용하여 연산

위의 연산 개념에 벡터 대신 행렬을 대입
- Return Context matrix

Attention(Q, K, V) = softmax({QK^T \over \sqrt{d_k}})V

위 실제 수식을 행렬로 시각화

Q, K, V 행렬 변환 example

Self Attention - 단어 벡터 대신, 문장 행렬을 적용한 모습

수식에 사용된 행렬 크기 정리

$seq\_len$	입력 문장의 길이
문장 행렬의 크기	$(seq\_len, d_{model})$
$d_k$	Q, K 벡터의 차원
$d_v$	V 벡터의 차원
Q, K 행렬의 크기	$(seq\_len, d_k)$
V 행렬의 크기	$(seq\_len, d_v)$
위의 가정에 따르면,	가중치 행렬의 크기 추정 가능
$W^Q,\ W^K$	$(d_{model}, d_k)$
$W^V$	$(d_{model}, d_v)$
이때, 논문에 따르면,	$d_k = d_v = d_{model}/num\_heads$ 이므로,
Attention Value Matrix	$(seq\_len, d_v)$

3. Multi-head Attention 🤯

💡 Why Multi-head?
여러 개의 Attention head = `여러 개의 시각`
즉, 다양한 시각에서 유사도 정보를 수집하기 위함

3-1. Multi-head

Multi-head Attention example, Attention head의 개수 = num_heads

어텐션 헤드의 개수만큼 병렬 어텐션 연산
- 각 Attention 값 행렬 $a_n$ = Attention head
  - 각 Attention head의 가중치 행렬 $W^Q, W^K, W^V$ 값은 모두 다른 값

연산 절차
1. 각기 다른 가중치 행렬을 이용한 병렬 어텐션 수행
  - Return Attention head $(a_0, … , a_{num\_heads})$
2. 모든 Attention head 연결
  - Return concatenated matrix
    $(seq\_len, d_{model})$
3. 가중치 행렬 $W^O$ 곱하기
  - Return Multi-head Attention Matrix $(seq\_len, d_{model})$
    - Input 문장 행렬 $(seq\_len, d{model})$ 과 동일 크기 유지

💭 Matrix 크기가 유지되어야 하는 이유?

- Transformer - 동일한 구조의 `encoder`를 6 layer 쌓은 구조
    ⇒ 다음 `encoder`에 다시 입력되기 위함

Jhyunee

좋아하는 것 많은 사람

이전 포스트

Attention ❕

NLP

Summary !

1. Self Attention 👀

1-1. Self Attention

Self Attention example

Basic Attention function

1-2. Self Attention의 Q, K, V 벡터

Self Attention example - word vector, W는 가중치 벡터

2. Scaled dot-product Attention ➗

2-1. Scaled dot-product Attention

Scaled dot-product example (128, 32 is an arbitary num)

2-2. 행렬을 통한 일괄 연산

위 실제 수식을 행렬로 시각화

Q, K, V 행렬 변환 example

3. Multi-head Attention 🤯

3-1. Multi-head

Multi-head Attention example, Attention head의 개수 = num_heads

$(seq\_len, d_{model})$

RNN (Recurrent Neural Network) 🔁

0개의 댓글

관련 채용 정보

Attention ❕

NLP

Summary !

1. Self Attention 👀

1-1. Self Attention

Self Attention example

Basic Attention function

1-2. Self Attention의 Q, K, V 벡터

Self Attention example - word vector, W는 가중치 벡터

2. Scaled dot-product Attention ➗

2-1. Scaled dot-product Attention

Scaled dot-product example (128, 32 is an arbitary num)

2-2. 행렬을 통한 일괄 연산

위 실제 수식을 행렬로 시각화

Q, K, V 행렬 변환 example

3. Multi-head Attention 🤯

3-1. Multi-head

Multi-head Attention example, Attention head의 개수 = num_heads

(seq_len,dmodel)(seq\_len, d_{model})(seq_len,dmodel​)

RNN (Recurrent Neural Network) 🔁

0개의 댓글

관련 채용 정보

$(seq\_len, d_{model})$