| Encoder 블록 | Decoder 블록 |
|---|---|
| Self-Attention → FFN | Self-Attention → Cross-Attention → FFN |
단일 인코더/디코더 사용
인코더 출력이 디코더로 넘어가지 않음
예시: GPT
✔️ 정답입니다.
| 구성 요소 | 설명 |
|---|---|
| Query | 디코더 블록 내부 hidden state |
| Key/Value | 인코더의 마지막 블록 출력 |
| 질문 | 답변 |
|---|---|
| Cross Attention의 Key/Value는 무엇인가요? | 인코더의 최종 출력입니다. |
| 모든 디코더 블록이 같은 Key/Value를 쓰나요? | ✅ 네, 인코더 최종 출력을 공유합니다. |
| Attention은 가중합인가요? | ✅ 네, Softmax(QKᵀ) × V로 계산되는 가중합입니다. |
| 이 가중합은 행렬곱으로 구현되나요? | ✅ 네, 병렬 연산 및 최적화를 위해 행렬곱으로 구현됩니다. |