Self-Attention 설명 및 예시

Bean·2025년 3월 31일

인공지능

목록 보기

4/134

1. Self-Attention 공식화

Self-Attention의 수학적 표현은 다음과 같습니다:

\text{Attention}(Q,K,V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right)V

$Q$ : Query 벡터
$K$ : Key 벡터
$V$ : Value 벡터
$d_k$ : Key 벡터의 차원 수 (정규화를 위해 사용)

여기서 $QK^T$ 는 Query와 Key 간의 내적을 나타내며, 그 값은 각 단어 간의 유사도를 나타냅니다. 이후 softmax를 통해 확률 분포로 변환된 후, Value 벡터( $V$ )와 결합되어 최종 출력이 됩니다.

2. Self-Attention 계산 예제

간단한 예제를 통해 Self-Attention이 어떻게 계산되는지 차근차근 살펴보겠습니다.

2.1. 입력 단어 벡터 (Embeddings)

문장이 다음과 같다고 가정합니다.

문장: "The cat sat"

각 단어를 3차원 벡터로 표현한다고 가정하면, 임베딩 벡터는 다음과 같습니다.

X_{The} = [1,0,1], \quad X_{Cat} = [0,1,1], \quad X_{Sat} = [1,1,0]

2.2. Query, Key, Value 행렬 생성

각 단어 벡터 $X$ 에 대해 Query ( $Q$ ), Key ( $K$ ), Value ( $V$ ) 행렬을 생성해야 합니다.
이를 위해 학습된 가중치 행렬 $W_Q, W_K, W_V$ 를 곱합니다.

가중치 행렬 예제

W_Q = \begin{bmatrix} 1 & 0 & -1 \\ 0 & 1 & 1 \\ 1 & -1 & 0 \end{bmatrix}, \quad W_K = \begin{bmatrix} 1 & -1 & 0 \\ 0 & 1 & 1 \\ 1 & 0 & -1 \end{bmatrix}, \quad W_V = \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \\ 1 & 1 & 0 \end{bmatrix}

각 단어 벡터에 이 행렬을 곱해서 $Q, K, V$ 를 구합니다.

Q = XW_Q

Q_{The} = [1,0,1] \times W_Q = [2, -1, -1]

Q_{Cat} = [0,1,1] \times W_Q = [1, 0, 1]

Q_{Sat} = [1,1,0] \times W_Q = [1,1,0]

K = XW_K

K_{The} = [1,0,1] \times W_K = [2, -1, -1]

K_{Cat} = [0,1,1] \times W_K = [1, 1, 0]

K_{Sat} = [1,1,0] \times W_K = [1, 0, 1]

V = XW_V

V_{The} = [1,0,1] \times W_V = [2,1,1]

V_{Cat} = [0,1,1] \times W_V = [1,2,1]

V_{Sat} = [1,1,0] \times W_V = [1,1,1]

2.3. Query와 Key의 내적을 이용한 Attention Score 계산

Attention Score는 Query와 Key의 내적(dot product) 으로 계산됩니다.

\text{score}_{ij} = Q_i \cdot K_j^T

예를 들어, "The"에 대한 Attention Score를 구해보겠습니다.

\text{score}_{The, The} = Q_{The} \cdot K_{The}^T = 6

\text{score}_{The, Cat} = Q_{The} \cdot K_{Cat}^T = 1

\text{score}_{The, Sat} = Q_{The} \cdot K_{Sat}^T = 1

위와 같은 방식으로 나머지도 계산하면 Attention Score 행렬 $S$ 은 다음과 같습니다.

S = \begin{bmatrix} 6 & 1 & 1 \\ 1 & 2 & 1 \\ 1 & 1 & 2 \end{bmatrix}

2.4. Softmax를 적용하여 Attention Weight 계산

각 단어에 대해 Softmax를 적용하여 가중치(Attention Weight, $\alpha_{ij}$ ) 를 계산합니다.

\alpha_{ij} = \frac{\exp(\text{score}_{ij})}{\sum_k \exp(\text{score}_{ik})}

예를 들어, "The" 단어의 가중치는:

\alpha_{The, The} \approx 0.88, \quad \alpha_{The, Cat} \approx 0.059, \quad \alpha_{The, Sat} \approx 0.059

비슷한 방식으로 계산하면 Attention Weight 행렬 $A$ 는 다음과 같습니다.

A = \begin{bmatrix} 0.88 & 0.059 & 0.059 \\ 0.32 & 0.32 & 0.32 \\ 0.32 & 0.32 & 0.32 \end{bmatrix}

2.5. Attention Weight를 이용한 Value의 가중평균

\text{output}_i = \sum_j \alpha_{ij} V_j

예를 들어 "The" 단어의 Attention Output을 구하면:

\text{output}_{The} = [1.878, 1.057, 1.0]

비슷한 방식으로 계산하면 최종 출력 행렬은 다음과 같습니다.

\text{Output} = \begin{bmatrix} 1.878 & 1.057 & 1.0 \\ 1.32 & 1.32 & 1.32 \\ 1.32 & 1.32 & 1.32 \end{bmatrix}

정리

Query-Key의 내적으로 Attention Score를 계산
Softmax를 적용하여 Attention Weight를 구함
Attention Weight를 사용해 Value 벡터의 가중평균을 계산하여 최종 Attention Output을 얻음

이를 통해 각 단어들이 문맥 내에서 서로 다른 중요도를 가지도록 학습할 수 있습니다.

3. Attention이란?

Attention은 입력 데이터(예: 단어, 이미지 패치 등)에서 중요한 부분을 선택하여 집중하는 메커니즘입니다.
Transformer 모델에서 각 단어(또는 토큰)가 문장에서 다른 단어들과 얼마나 중요한 관계를 가지는지 학습하는 과정을 의미합니다.

예를 들어, 문장이 "The cat sat" 이라면,

"cat"은 "sat"과 밀접한 관련이 있음
"The"는 문법적으로 중요한 단어이지만 "sat"과는 관계가 약함

이처럼 각 단어가 문장에서 어떤 단어에 집중해야 하는지(즉, 중요도를 결정) 하기 위해 Attention Mechanism이 사용됩니다.

4. Attention을 왜 구해야 할까?

4.1 문맥 정보 반영

각 단어가 문장에서 어떤 단어들과 중요한 관계를 맺고 있는지를 반영하기 위해 사용됩니다.

예를 들어, 번역 모델에서 "He went to the bank"라는 문장에서 "bank"가
"강가"인지 "은행"인지 결정하려면 앞뒤 단어들과의 관계를 고려해야 합니다.

4.2 장거리 의존성(Long-range Dependency)

RNN이나 LSTM과 달리, Attention은 멀리 떨어진 단어들 간의 관계도 쉽게 포착할 수 있습니다.

예를 들어,
"The boy who lived in the old house was very happy"
에서 "boy"와 "happy"는 멀리 떨어져 있지만 서로 강한 관련이 있을 수 있습니다.

4.3 병렬 연산 가능

RNN/LSTM과 달리, Self-Attention은 병렬 연산이 가능하여 속도가 빠름

5. 위에서 구한 Attention Output을 어떻게 해석할까?

5.1. Output 행렬을 다시 보자

Attention을 거친 최종 Output 행렬은 다음과 같습니다:

\text{Output} = \begin{bmatrix} 1.878 & 1.057 & 1.0 \\ 1.32 & 1.32 & 1.32 \\ 1.32 & 1.32 & 1.32 \end{bmatrix}

각 행은 하나의 단어에 대한 Attention 결과를 나타냅니다.
행 벡터가 의미하는 것은 각 단어가 문맥에서 조정된 새로운 표현(임베딩) 입니다.

5.2. 첫 번째 단어 "The"의 Output 해석

"The"의 Attention Output:

[1.878, 1.057, 1.0]

"The"는 원래 $[1, 0, 1]$ 이었지만, Attention을 적용한 후 다른 단어들의 정보가 반영된 새로운 벡터가 됨
1.878 → "The"가 원래 $[1, 0, 1]$ 일 때보다 강조되었음을 의미
즉, "The"의 새로운 표현은 "Cat"과 "Sat"과의 관계를 반영한 벡터로 조정됨

5.3. "Cat"과 "Sat"의 Output 해석

"Cat"과 "Sat"의 Attention Output:

[1.32, 1.32, 1.32]

"Cat"과 "Sat"은 원래 $[0, 1, 1]$ , $[1, 1, 0]$ 이었지만, Attention 이후 거의 동일한 값을 갖게 됨
이는 "Cat"과 "Sat"이 문맥 내에서 비슷한 중요도를 가지도록 조정되었음을 의미

6. 요약 및 핵심 포인트

6.1 Attention이란?

입력 데이터에서 중요한 요소를 학습하여, 특정 요소에 더 집중하도록 가중치를 주는 메커니즘

6.2 왜 필요한가?

문맥 정보를 반영하여 중요한 단어를 강조
멀리 떨어진 단어들 간의 관계를 잘 포착
병렬 연산이 가능하여 속도가 빠름

6.3 Output 해석

Attention Output은 Value 벡터의 가중평균
각 단어의 벡터가 문맥 정보를 반영하여 새로운 표현(embedding) 으로 변환됨
"Cat"과 "Sat"은 문장에서 비슷한 중요도를 가지도록 조정됨
"The"는 상대적으로 문장에서 덜 중요한 역할을 하므로 변환이 다르게 이루어짐

이처럼 Attention은 입력 데이터를 문맥에 맞게 변환하여
더 의미 있는 표현을 학습할 수 있도록 도와줍니다!

Bean

AI developer

이전 포스트

역전파와 Loss 최적화: 간단한 예제와 원리

다음 포스트