Encoder 블록 | Decoder 블록 |
---|---|
Self-Attention → FFN | Self-Attention → Cross-Attention → FFN |
단일 인코더/디코더 사용
인코더 출력이 디코더로 넘어가지 않음
예시: GPT
✔️ 정답입니다.
구성 요소 | 설명 |
---|---|
Query | 디코더 블록 내부 hidden state |
Key/Value | 인코더의 마지막 블록 출력 |
질문 | 답변 |
---|---|
Cross Attention의 Key/Value는 무엇인가요? | 인코더의 최종 출력입니다. |
모든 디코더 블록이 같은 Key/Value를 쓰나요? | ✅ 네, 인코더 최종 출력을 공유합니다. |
Attention은 가중합인가요? | ✅ 네, Softmax(QKᵀ) × V로 계산되는 가중합입니다. |
이 가중합은 행렬곱으로 구현되나요? | ✅ 네, 병렬 연산 및 최적화를 위해 행렬곱으로 구현됩니다. |